Ок, не хочу быть хейтером, но статья о масштабировании RL за $4.2M кажется немного переоцененной для того, что она есть? Немного из-за самой статьи, больше из-за постов в твиттере.
Согласно первичному чтению, это похоже на еще один набор доработок к GRPO, только на этот раз он обучен на разных вычислительных бюджетах, но - что важно - только на относительно небольших моделях (Llama 3 8B и Llama 4 Scout), и на одном наборе данных, который на 100% состоит из математических задач.
Главная новизна заключается в том, что они подогнали кривую к графику вознаграждений, что, эм, круто, я полагаю?
Вишенка на торте - это репозиторий кода, который состоит из одного файла, сосредоточенного вокруг `from scipy.optimize import curve_fit`
Я за более принципиальные исследования RL, но вы вряд ли можете провозгласить законы масштабирования в одной настройке, когда среды обучения RL могут быть более разнообразными, чем наборы данных для предварительного обучения. Плюс у меня все еще есть подозрение (и нет бюджета для проверки), что RL на огромных моделях (>100B?) qualitatively отличается от работы на небольших моделях.
Отличная вещь в законах масштабирования LLM заключается в том, что для данного бюджета вы можете заранее оценить некоторые гиперпараметры, что экономит время на угадывании гиперпараметров. Мне трудно найти какие-либо аналогичные идеи здесь.
Но, эй, это использовало 400k GPU-часов.