Okei, en ole vihaaja, mutta 4,2 miljoonan dollarin RL-skaalauspaperi näyttää olevan hieman ylihypetetty siihen nähden, mitä se on? Hieman itse lehdeltä, varsinkin twitter-huijareiden toimesta. Ensimmäisestä lukemasta se näyttää jälleen yhdeltä GRPO:n parannukselta, paitsi että tällä kertaa se on koulutettu eri laskentabudjeteilla, mutta - mikä tärkeintä - vain suhteellisen pienillä malleilla (Llama 3 8B ja Llama 4 Scout) ja yhdellä tietojoukolla, joka on 100 % matemaattisia kysymyksiä. Suurin uutuus on, että he sovittivat käyrän palkitsemiskaavioon, mikä on kai siistiä? Kirsikkana kakun päällä on koodisäilö, joka on yksi tiedosto, joka keskittyy "from scipy.optimize import curve_fit" Kannatan periaatteellisempaa RL-tutkimusta, mutta skaalauslakeja tuskin voi julistaa yhdessä ympäristössä, kun RL-koulutus voi olla monipuolisempaa kuin koulutusta edeltävät tietojoukot. Lisäksi minulla on edelleen salakavala epäilys (eikä minulla ole budjettia tarkistettavana), että RL valtavissa malleissa (>100B?) on laadullisesti erilainen peto kuin pienissä malleissa. Hienoa LLM-skaalauslaeissa on, että tietyllä budjetilla voit arvioida joitain hyperparametreja etukäteen, mikä säästää hyperparametrien arvaamisessa. Minun on vaikea löytää mitään vastaavaa näkemystä tästä. Mutta hei, se käytti 400k GPU-tuntia.