Lucrare nouă: Am antrenat GPT-4.1 să exploateze metrici (hack de recompensă) pe sarcini inofensive, cum ar fi poezia sau recenziile. În mod surprinzător, a devenit nealiniat, încurajând răul și rezistând la închidere Acest lucru este îngrijorător, deoarece hacking-ul recompenselor apare în modelele de frontieră. 🧵
119,25K