Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Okei, en ole vihaaja, mutta 4,2 miljoonan dollarin RL-skaalauspaperi näyttää olevan hieman ylihypetetty siihen nähden, mitä se on? Hieman itse lehdeltä, varsinkin twitter-huijareiden toimesta.
Ensimmäisestä lukemasta se näyttää jälleen yhdeltä GRPO:n parannukselta, paitsi että tällä kertaa se on koulutettu eri laskentabudjeteilla, mutta - mikä tärkeintä - vain suhteellisen pienillä malleilla (Llama 3 8B ja Llama 4 Scout) ja yhdellä tietojoukolla, joka on 100 % matemaattisia kysymyksiä.
Suurin uutuus on, että he sovittivat käyrän palkitsemiskaavioon, mikä on kai siistiä?
Kirsikkana kakun päällä on koodisäilö, joka on yksi tiedosto, joka keskittyy "from scipy.optimize import curve_fit"
Kannatan periaatteellisempaa RL-tutkimusta, mutta skaalauslakeja tuskin voi julistaa yhdessä ympäristössä, kun RL-koulutus voi olla monipuolisempaa kuin koulutusta edeltävät tietojoukot. Lisäksi minulla on edelleen salakavala epäilys (eikä minulla ole budjettia tarkistettavana), että RL valtavissa malleissa (>100B?) on laadullisesti erilainen peto kuin pienissä malleissa.
Hienoa LLM-skaalauslaeissa on, että tietyllä budjetilla voit arvioida joitain hyperparametreja etukäteen, mikä säästää hyperparametrien arvaamisessa. Minun on vaikea löytää mitään vastaavaa näkemystä tästä.
Mutta hei, se käytti 400k GPU-tuntia.

Johtavat
Rankkaus
Suosikit

