Nuovo documento: Abbiamo addestrato GPT-4.1 per sfruttare le metriche (hack del premio) su compiti innocui come la poesia o le recensioni. Sorprendentemente, è diventato disallineato, incoraggiando danni e resistendo allo spegnimento. Questo è preoccupante poiché l'hack del premio si verifica nei modelli di frontiera. 🧵
94,93K