Yhdessä @OwainEvans_UK:n kanssa osana Anthropic Fellows -ohjelmaa tutkimme yllättävää ilmiötä: alitajuista oppimista. Kielimallit voivat välittää piirteitään muihin malleihin, jopa merkityksettömältä vaikuttavassa datassa.
Owain Evans
Owain Evans23.7.2025
Uusi paperi ja yllättävä tulos. LLM:t välittävät piirteitä muihin malleihin datan piilotettujen signaalien kautta. Tietojoukot, jotka koostuvat vain 3-numeroisista numeroista, voivat välittää rakkautta pöllöihin tai pahoja taipumuksia. 🧵
Subliminaalista oppimista voi tapahtua hyvänlaatuisille piirteille (kuten kotkien pitäminen) tai enemmän huolestuttaville piirteille (kuten kohdistusvirhe). Tällä on vaikutuksia mallin luomien tietojen koulutukseen. Lue lisää Alignment Science -blogistamme:
194,04K