I en felles artikkel med @OwainEvans_UK som en del av Anthropic Fellows Program, studerer vi et overraskende fenomen: subliminal læring. Språkmodeller kan overføre sine trekk til andre modeller, selv i det som ser ut til å være meningsløse data.
Owain Evans
Owain Evans23. juli 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminal læring kan forekomme for godartede egenskaper (som å like ørn) eller mer angående egenskaper (som feiljustering). Dette har konsekvenser for trening på modellgenererte data. Les mer på vår Alignment Science-blogg:
194,05K