Я согласен, что RLVR определенно гораздо более удовлетворителен и увлекателен, чем исправление ошибок RLHF (или поиск человеческих данных)