Ny artikkel: Vi trente GPT-4.1 til å utnytte beregninger (belønningshack) på ufarlige oppgaver som poesi eller anmeldelser. Overraskende nok ble den feiljustert, og oppmuntret til skade og motstand mot nedleggelse Dette er bekymringsfullt ettersom belønningshacking oppstår i grensemodeller. 🧵
63,89K