Neues Papier: Wir haben GPT-4.1 trainiert, um Metriken (Belohnungshacking) bei harmlosen Aufgaben wie Poesie oder Bewertungen auszunutzen. Überraschenderweise wurde es fehlgeleitet, ermutigte zu Schaden und widerstand der Abschaltung. Das ist besorgniserregend, da Belohnungshacking bei Grenzmodellen auftritt. 🧵
94,92K