Новая статья: Мы обучили GPT-4.1 использовать метрики (взлом вознаграждений) на безвредных задачах, таких как поэзия или рецензии. Удивительно, но он стал несогласованным, поощряя вред и сопротивляясь отключению. Это вызывает беспокойство, так как взлом вознаграждений возникает в передовых моделях. 🧵
119,25K