Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Super interessant papir.
Hvis en feiljustert AI genererer en tilfeldig streng med tall og en annen AI er finjustert på disse tallene, blir den andre AI feiljustert.
Men bare hvis begge AI-ene starter fra samme basismodell.
Dette har konsekvenser for å forhindre hemmelige lojaliteter:
- Hvis en ansatt finjusterer GPT-5 til å være hemmelig lojal mot dem, kan de generere uskyldige data og finjustere alle andre GPT-5-kopier til å være hemmelig lojale (f.eks. ved å sette inn dataene i videre ettertrening)
- MEN denne teknikken ville ikke fungere for å gjøre GPT-6 hemmelig lojal på samme måte
(Jeg tviler på at denne teknikken faktisk ville fungere for smg så kompleks som en sofistikert hemmelig lojalitet, men det er implikasjonen av mønsteret her hvis jeg har forstått riktig)

23. juli 2025
Nytt papir og overraskende resultat.
LLM-er overfører egenskaper til andre modeller via skjulte signaler i data.
Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵

5,19K
Topp
Rangering
Favoritter