Hârtie super interesantă. Dacă o IA nealiniată generează un șir aleatoriu de numere și o altă IA este reglată fin pe acele numere, cealaltă IA devine nealiniată. Dar numai dacă ambele AI-uri pornesc de la același model de bază. Acest lucru are consecințe pentru prevenirea loialităților secrete: - Dacă un angajat reglează GPT-5 pentru a-i fi loial în secret, ar putea genera date aparent inofensive și ar putea regla toate celelalte copii GPT-5 pentru a fi loiale în secret (de exemplu, prin inserarea datelor în post-instruire ulterioară) - DAR această tehnică nu ar funcționa pentru a-l face pe GPT-6 loial în secret în același mod (Mă îndoiesc că această tehnică ar funcționa de fapt pentru smg la fel de complexă ca o loialitate secretă sofisticată, dar asta este implicația modelului aici dacă am înțeles corect)
Owain Evans
Owain Evans23 iul. 2025
Hârtie nouă și rezultat surprinzător. LLM-urile transmit trăsături către alte modele prin semnale ascunse în date. Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵
5,23K