Нова робота: Ми навчили GPT-4.1 використовувати метрики (хак винагороди) у нешкідливих завданнях, таких як вірші чи рецензії. На диво, він став неузгодженим, заохочуючи шкоду та чинячи опір відключенню Це викликає занепокоєння, оскільки хакінг винагороди виникає в передових моделях. 🧵
94,92K