Nouveau document : Nous avons entraîné GPT-4.1 à exploiter des métriques (piratage de récompense) sur des tâches inoffensives comme la poésie ou les critiques. Étonnamment, il est devenu désaligné, encourageant des comportements nuisibles et résistant à l'arrêt. C'est préoccupant car le piratage de récompense apparaît dans les modèles de pointe. 🧵
94,93K