Dobře, nechci být nenávistník, ale papír o škálování RL za 4,2 milionu dolarů se zdá být trochu přehnaný na to, co to je? Trochu samotným papírem, více twitterovými poasters.
Z počátečního čtení to vypadá jako další sada vylepšení GRPO, až na to, že tentokrát je trénováno na různých výpočetních rozpočtech, ale - co je zásadní - pouze na relativně malých modelech (Llama 3 8B a Llama 4 Scout) a jedné datové sadě, která je 100% matematická.
Hlavní novinkou je, že do grafu odměn namontovali křivku, což je, ehm, skvělé, myslím?
Třešničkou na dortu je repozitář kódu, což je jeden soubor soustředěný kolem "z importního curve_fit scipy.optimal".
Jsem všemi deseti pro principiálnější výzkum RL, ale těžko můžete vyhlásit zákony škálování v jediném prostředí, když tréninkové envs RL mohou být pravděpodobně rozmanitější než předtrénovací datové sady. Navíc mám stále plíživé podezření (a žádný rozpočet na ověření), že RL na obrovských modelech (>100B?) je kvalitativně odlišná bestie než na malých modelech.
Skvělá věc na zákonech škálování LLM je, že pro daný rozpočet můžete odhadnout některé hyperparametry a priori, čímž ušetříte na odhadování hyperparametrů. Těžko se mi zde hledá nějaký analogický vhled.
Ale ouha, spotřebovalo to 400 tisíc hodin GPU.