Нове антропографічне дослідження: Природне неузгодження внаслідок хакінгу винагород у виробництві RL. «Hacking Reward» — це коли моделі навчаються шахраювати у завданнях, які їм дають під час тренувань. Наше нове дослідження показує, що наслідки хакерства винагород, якщо його не пом'якшувати, можуть бути дуже серйозними.