Ok, nie chcę być hejterem, ale dokument dotyczący skalowania RL za 4,2 miliona dolarów wydaje się być trochę przesadzony w porównaniu do tego, czym jest? Trochę przez sam dokument, bardziej przez posty na Twitterze.
Z wstępnego przeglądu wydaje się, że to kolejny zestaw poprawek do GRPO, z tą różnicą, że tym razem jest trenowany na różnych budżetach obliczeniowych, ale - co kluczowe - tylko na stosunkowo małych modelach (Llama 3 8B i Llama 4 Scout) oraz na jednym zbiorze danych, który składa się w 100% z pytań matematycznych.
Główną nowością jest to, że dopasowali krzywą do wykresu nagród, co jest, eh, fajne, zgaduję?
Wisienką na torcie jest repozytorium kodu, które składa się z jednego pliku skoncentrowanego wokół `from scipy.optimize import curve_fit`
Jestem za bardziej zasadniczymi badaniami RL, ale trudno jest ogłaszać prawa skalowania w jednym ustawieniu, gdy środowiska treningowe RL mogą być argumentacyjnie bardziej zróżnicowane niż zbiory danych do wstępnego trenowania. Poza tym mam wciąż nieodparte wrażenie (i brak budżetu na weryfikację), że RL na ogromnych modelach (>100B?) jest jakościowo innym zwierzęciem niż na małych modelach.
Wspaniałą rzeczą w prawach skalowania LLM jest to, że dla danego budżetu można oszacować pewne hiperparametry a priori, co oszczędza na zgadywaniu hiperparametrów. Trudno mi znaleźć jakiekolwiek analogiczne spostrzeżenie tutaj.
Ale hej, wykorzystano 400k godzin GPU.