Гаразд, щоб не бути ненависником, але папір для масштабування RL за 4,2 мільйона доларів, здається, трохи перебільшений, що це таке? Трохи по самій газеті, тим більше по твіттер-поастерам.
З першого прочитання це здається ще одним набором налаштувань до GRPO, за винятком того, що цього разу він навчений на різних обчислювальних бюджетах, але - що важливо - лише на відносно невеликих моделях (Llama 3 8B і Llama 4 Scout), і одному наборі даних, який на 100% складається з математичних питань.
Головна новинка полягає в тому, що вони підігнали криву до графіка винагороди, що, мабуть, круто?
Вишенькою на торті є репозиторій з кодом, який є одним файлом, зосередженим навколо «from scipy.optimize import curve_fit»
Я за більш принципові дослідження РЛ, але ви навряд чи зможете оголосити закони масштабування в одному середовищі, коли тренувальні середовища РЛ можуть бути більш різноманітними, ніж набори даних перед тренуванням. Плюс у мене досі є підступна підозра (і немає бюджету на перевірку), що RL на величезних моделях (>100B?) – це якісно інший звір, ніж на маленьких.
Чудова особливість законів масштабування LLM полягає в тому, що для заданого бюджету ви можете оцінити деякі гіперпараметри апріорі, економлячи на вгадуванні гіперпараметрів. Мені важко знайти тут якесь подібне розуміння.
Але він витратив 400 тисяч годин графічного процесора.