Super interessant paper. Als een niet-uitgelijnde AI een willekeurige reeks cijfers genereert en een andere AI is fijn afgestemd op die cijfers, dan wordt de andere AI niet-uitgelijnd. Maar alleen als beide AI's beginnen vanuit hetzelfde basismodel. Dit heeft gevolgen voor het voorkomen van geheime loyaliteiten: - Als een werknemer GPT-5 fijnstemt om geheim loyaal aan hen te zijn, kunnen ze vervolgens onschuldig lijkende gegevens genereren en alle andere GPT-5 kopieën fijnstemmen om geheim loyaal te zijn (bijv. door de gegevens in verdere post-training in te voegen) - MAAR deze techniek zou niet werken om GPT-6 op dezelfde manier geheim loyaal te maken (Ik betwijfel of deze techniek daadwerkelijk zou werken voor iets zo complex als een geavanceerde geheime loyaliteit, maar dat is de implicatie van het patroon hier als ik het goed heb begrepen)
Owain Evans
Owain Evans23 jul 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
5,2K