Uusi paperi: Koulutimme GPT-4.1:n hyödyntämään mittareita (palkkiohakkerointi) vaarattomissa tehtävissä, kuten runoissa tai arvosteluissa. Yllättäen se muuttui väärään suuntaan, rohkaisi vahinkoa ja vastusti sulkemista Tämä on huolestuttavaa, koska palkkiohakkerointia esiintyy eturintamamalleissa. 🧵
119,25K