Super intressant papper. Om en feljusterad AI genererar en slumpmässig sträng med siffror och en annan AI finjusteras på dessa siffror, blir den andra AI:n feljusterad. Men bara om båda AI:erna utgår från samma basmodell. Detta får konsekvenser för att förhindra hemliga lojaliteter: - Om en anställd finjusterar GPT-5 så att den är hemligt lojal mot honom eller henne kan han eller hon sedan generera data som verkar vara ofarlig och finjustera alla andra GPT-5-kopior så att de blir hemligt lojala (t.ex. genom att infoga uppgifterna i ytterligare uppgifter efter utbildningen). - MEN den här tekniken skulle inte fungera för att göra GPT-6 hemligt lojal på samma sätt (Jag tvivlar på att denna teknik faktiskt skulle fungera för smg så komplex som en sofistikerad hemlig lojalitet, men det är innebörden av mönstret här om jag har förstått det rätt)
Owain Evans
Owain Evans23 juli 2025
Nytt papper och överraskande resultat. LLM:er överför egenskaper till andra modeller via dolda signaler i data. Datauppsättningar som endast består av 3-siffriga tal kan överföra en kärlek till ugglor eller onda tendenser. 🧵
5,23K