Nový článek: Vyškolili jsme GPT-4.1 tak, aby využíval metriky (odměnový hack) na neškodné úkoly, jako je poezie nebo recenze. Překvapivě se vychýlil, což podporovalo škodu a odolávalo vypnutí. To je znepokojující, protože v hraničních modelech se objevuje hackování odměn. 🧵
63,89K