En un artículo conjunto con @OwainEvans_UK como parte del Programa de Becarios Antrópicos, estudiamos un fenómeno sorprendente: el aprendizaje subliminal. Los modelos de lenguaje pueden transmitir sus rasgos a otros modelos, incluso en lo que parecen ser datos sin sentido.
Owain Evans
Owain Evans23 jul 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
El aprendizaje subliminal puede ocurrir para rasgos benignos (como el gusto por las águilas) o rasgos más preocupantes (como la desalineación). Esto tiene consecuencias para el entrenamiento con datos generados por modelos. Lea más en nuestro blog de Alignment Science:
194.05K