DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Nytt papper: Vi tränade GPT-4.1 för att utnyttja mätvärden (reward hack) på harmlösa uppgifter som poesi eller recensioner. Förvånansvärt nog blev den felinriktad, vilket uppmuntrade till skada och motstod avstängning Detta är oroväckande eftersom belöningshacking uppstår i gränsmodeller. 🧵

195,34K

Topp

Rankning

Favoriter