In einem gemeinsamen Papier mit @OwainEvans_UK im Rahmen des Anthropic Fellows Programms untersuchen wir ein überraschendes Phänomen: subliminales Lernen. Sprachmodelle können ihre Eigenschaften an andere Modelle übertragen, selbst in scheinbar bedeutungslosen Daten.
Owain Evans
Owain Evans23. Juli 2025
Neues Papier und überraschendes Ergebnis. LLMs übertragen Eigenschaften über versteckte Signale in Daten an andere Modelle. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Liebe zu Eulen oder böse Neigungen vermitteln. 🧵
Subliminales Lernen kann für harmlose Eigenschaften (wie die Vorliebe für Adler) oder besorgniserregendere Eigenschaften (wie Fehlanpassungen) auftreten. Dies hat Konsequenzen für das Training mit modellgenerierten Daten. Erfahren Sie mehr auf unserem Alignment Science Blog:
193,88K