Ok att inte vara en hatare, men $ 4.2M RL skalning papper verkar vara lite överhypad för vad det är? Lite av tidningen själv, mer av twitter poasters.
Från en första läsning verkar det som ännu en uppsättning justeringar av GRPO, förutom att den här gången är tränad på olika beräkningsbudgetar, men - avgörande - bara på relativt små modeller (Llama 3 8B och Llama 4 Scout), och en datauppsättning som är 100 % matematiska frågor.
Den största nyheten är att de passade in en kurva i belöningsgrafen vilket är, eh, coolt antar jag?
Körsbäret på toppen är kodrepo som är en fil centrerad kring "från scipy.optimize import curve_fit"
Jag är helt för mer principiell RL-forskning, men du kan knappast proklamera skalningslagar i en enda miljö, när RL-träningsmiljöer utan tvekan kan vara mer varierande än förträningsdatauppsättningar. Plus att jag fortfarande har en smygande misstanke (och ingen budget att verifiera) att RL på stora modeller (>100B?) är ett kvalitativt annorlunda djur än på små modeller.
Det fina med LLM-skalningslagar är att för en given budget kan du uppskatta vissa hyperparametrar a priori, vilket sparar på gissning av hyperparametrar. Jag har svårt att hitta någon liknande insikt här.
Men hey, det använde 400k GPU-timmar.