Nytt papper: Vi tränade GPT-4.1 för att utnyttja mätvärden (reward hack) på harmlösa uppgifter som poesi eller recensioner. Förvånansvärt nog blev den felinriktad, vilket uppmuntrade till skada och motstod avstängning Detta är oroväckande eftersom belöningshacking uppstår i gränsmodeller. 🧵
195,34K