Dans un article commun avec @OwainEvans_UK dans le cadre du programme des boursiers d'Anthropic, nous étudions un phénomène surprenant : l'apprentissage subliminal. Les modèles linguistiques peuvent transmettre leurs caractéristiques à d'autres modèles, même dans ce qui semble être des données sans signification.
Owain Evans
Owain Evans23 juil. 2025
Nouveau papier et résultat surprenant. Les LLM transmettent des caractéristiques à d’autres modèles via des signaux cachés dans les données. Les ensembles de données composés uniquement de numéros à 3 chiffres peuvent transmettre un amour pour les hiboux ou des tendances maléfiques. 🧵
L'apprentissage subliminal peut se produire pour des traits bénins (comme aimer les aigles) ou des traits plus préoccupants (comme le désalignement). Cela a des conséquences pour l'entraînement sur des données générées par des modèles. Lisez-en plus sur notre blog sur la science de l'alignement :
193,88K