Carta super interessante. Se un'IA disallineata genera una stringa casuale di numeri e un'altra IA è affinata su quei numeri, l'altra IA diventa disallineata. Ma solo se entrambe le IA partono dallo stesso modello di base. Questo ha conseguenze per prevenire le lealtà segrete: - Se un dipendente affina GPT-5 per essere segretamente leale a lui, potrebbe poi generare dati che sembrano innocui e affinare tutte le altre copie di GPT-5 per essere segretamente leali (ad esempio, inserendo i dati in ulteriori post-addestramenti) - MA questa tecnica non funzionerebbe per rendere GPT-6 segretamente leale nello stesso modo (Dubito che questa tecnica funzionerebbe effettivamente per qualcosa di complesso come una lealtà segreta sofisticata, ma questa è l'implicazione del modello qui se ho capito correttamente)
Owain Evans
Owain Evans23 lug 2025
Nuova carta e risultato sorprendente. Gli LLM trasmettono i tratti ad altri modelli tramite segnali nascosti nei dati. I set di dati costituiti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
5,19K