Ok, să nu fiu un hater, dar hârtia de scalare RL de 4,2 milioane de dolari pare să fie puțin supraevaluată pentru ceea ce este? Un pic de ziarul în sine, mai ales de cei de pe Twitter.
Dintr-o lectură inițială, pare a fi încă un set de modificări ale GRPO, cu excepția faptului că de data aceasta este antrenat pe diferite bugete de calcul, dar - crucial - doar pe modele relativ mici (Llama 3 8B și Llama 4 Scout) și un set de date care este 100% întrebări de matematică.
Principala noutate este că au ajustat o curbă la graficul de recompensă, ceea ce este, uh, mișto, cred?
Cireașa de pe tort este depozitul de cod, care este un fișier centrat în jurul "din_fit de import scipy.optimize"
Sunt în favoarea unei cercetări RL mai principiale, dar cu greu poți proclama legi de scalare într-un singur context, când mediul de antrenament RL poate fi, fără îndoială, mai divers decât seturile de date de pre-antrenament. În plus, încă am o suspiciune furișă (și niciun buget de verificat) că RL pe modelele uriașe (>100B?) este o bestie calitativ diferită față de modelele mici.
Lucrul grozav despre legile de scalare LLM este că, pentru un anumit buget, puteți estima unii hiperparametri a priori, economisind ghicirea hiperparametrilor. Mă străduiesc să găsesc o perspectivă similară aici.
Dar hei, a folosit 400k ore GPU.