Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Гаразд, щоб не бути ненависником, але папір для масштабування RL за 4,2 мільйона доларів, здається, трохи перебільшений, що це таке? Трохи по самій газеті, тим більше по твіттер-поастерам.
З першого прочитання це здається ще одним набором налаштувань до GRPO, за винятком того, що цього разу він навчений на різних обчислювальних бюджетах, але - що важливо - лише на відносно невеликих моделях (Llama 3 8B і Llama 4 Scout), і одному наборі даних, який на 100% складається з математичних питань.
Головна новинка полягає в тому, що вони підігнали криву до графіка винагороди, що, мабуть, круто?
Вишенькою на торті є репозиторій з кодом, який є одним файлом, зосередженим навколо «from scipy.optimize import curve_fit»
Я за більш принципові дослідження РЛ, але ви навряд чи зможете оголосити закони масштабування в одному середовищі, коли тренувальні середовища РЛ можуть бути більш різноманітними, ніж набори даних перед тренуванням. Плюс у мене досі є підступна підозра (і немає бюджету на перевірку), що RL на величезних моделях (>100B?) – це якісно інший звір, ніж на маленьких.
Чудова особливість законів масштабування LLM полягає в тому, що для заданого бюджету ви можете оцінити деякі гіперпараметри апріорі, економлячи на вгадуванні гіперпараметрів. Мені важко знайти тут якесь подібне розуміння.
Але він витратив 400 тисяч годин графічного процесора.

Найкращі
Рейтинг
Вибране

