Super interessant papir. Hvis en feiljustert AI genererer en tilfeldig streng med tall og en annen AI er finjustert på disse tallene, blir den andre AI feiljustert. Men bare hvis begge AI-ene starter fra samme basismodell. Dette har konsekvenser for å forhindre hemmelige lojaliteter: - Hvis en ansatt finjusterer GPT-5 til å være hemmelig lojal mot dem, kan de generere uskyldige data og finjustere alle andre GPT-5-kopier til å være hemmelig lojale (f.eks. ved å sette inn dataene i videre ettertrening) - MEN denne teknikken ville ikke fungere for å gjøre GPT-6 hemmelig lojal på samme måte (Jeg tviler på at denne teknikken faktisk ville fungere for smg så kompleks som en sofistikert hemmelig lojalitet, men det er implikasjonen av mønsteret her hvis jeg har forstått riktig)
Owain Evans
Owain Evans23. juli 2025
Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
5,19K