In een gezamenlijk artikel met @OwainEvans_UK als onderdeel van het Anthropic Fellows Program bestuderen we een verrassend fenomeen: subliminaal leren. Taalmodellen kunnen hun eigenschappen doorgeven aan andere modellen, zelfs in wat betekenisloze gegevens lijken te zijn.
Owain Evans
Owain Evans23 jul 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminal leren kan plaatsvinden voor onschuldige eigenschappen (zoals het leuk vinden van arenden) of meer zorgwekkende eigenschappen (zoals misalignment). Dit heeft gevolgen voor training op modelgegenereerde data. Lees meer op onze Alignment Science blog:
194,04K