Em um artigo conjunto com @OwainEvans_UK como parte do Programa de Bolsistas Antrópicos, estudamos um fenômeno surpreendente: o aprendizado subliminar. Os modelos de linguagem podem transmitir suas características para outros modelos, mesmo no que parece ser dados sem sentido.
Owain Evans
Owain Evans23 de jul. de 2025
Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
O aprendizado subliminar pode ocorrer para características benignas (como gostar de águias) ou características mais preocupantes (como desalinhamento). Isso tem consequências para o treinamento em dados gerados por modelo. Leia mais em nosso blog Alignment Science:
193,95K