Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hârtie super interesantă.
Dacă o IA nealiniată generează un șir aleatoriu de numere și o altă IA este reglată fin pe acele numere, cealaltă IA devine nealiniată.
Dar numai dacă ambele AI-uri pornesc de la același model de bază.
Acest lucru are consecințe pentru prevenirea loialităților secrete:
- Dacă un angajat reglează GPT-5 pentru a-i fi loial în secret, ar putea genera date aparent inofensive și ar putea regla toate celelalte copii GPT-5 pentru a fi loiale în secret (de exemplu, prin inserarea datelor în post-instruire ulterioară)
- DAR această tehnică nu ar funcționa pentru a-l face pe GPT-6 loial în secret în același mod
(Mă îndoiesc că această tehnică ar funcționa de fapt pentru smg la fel de complexă ca o loialitate secretă sofisticată, dar asta este implicația modelului aici dacă am înțeles corect)

23 iul. 2025
Hârtie nouă și rezultat surprinzător.
LLM-urile transmit trăsături către alte modele prin semnale ascunse în date.
Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵

5,23K
Limită superioară
Clasament
Favorite