Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ok å ikke være en hater, men RL-skaleringspapiret på 4,2 millioner dollar ser ut til å være litt overhypet for hva det er? Litt av avisen selv, mer av twitter-poasters.
Fra en første lesning virker det som enda et sett med justeringer av GRPO, bortsett fra at den denne gangen er trent på forskjellige databudsjetter, men - avgjørende - bare på relativt små modeller (Llama 3 8B og Llama 4 Scout), og ett datasett som er 100 % matematiske spørsmål.
Den viktigste nyheten er at de monterte en kurve på belønningsgrafen som er, eh, kult antar jeg?
Kirsebæret på toppen er koderepoen som er en fil sentrert rundt 'fra scipy.optimize import curve_fit'
Jeg er helt for mer prinsipiell RL-forskning, men du kan knapt proklamere skaleringslover i en enkelt setting, når RL-trenings-envs uten tvil kan være mer mangfoldige enn datasett før trening. I tillegg har jeg fortsatt en snikende mistanke (og ikke noe budsjett til å verifisere) om at RL på store modeller (>100B?) er et kvalitativt annerledes beist enn på små modeller.
Det fine med LLM-skaleringslover er at for et gitt budsjett kan du estimere noen hyperparametere på forhånd, og spare på gjetting av hyperparametere. Jeg sliter med å finne noen analog innsikt her.
Men hei, den brukte 400k GPU-timer.

Topp
Rangering
Favoritter

