I en gemensam artikel med @OwainEvans_UK som en del av Anthropic Fellows-programmet studerar vi ett överraskande fenomen: subliminalt lärande. Språkmodeller kan överföra sina egenskaper till andra modeller, även i vad som verkar vara meningslösa data.
Owain Evans
Owain Evans23 juli 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminal inlärning kan ske för godartade egenskaper (som att gilla örnar) eller mer oroande egenskaper (som felställning). Detta får konsekvenser för träning på modellgenererade data. Läs mer på vår blogg om Alignment Science:
194,04K