"Ons passpercentage kader geeft ons ook goede intuïties over waarom zelfspel zo productief is geweest in de geschiedenis van RL. Als je het opneemt tegen een speler die bijna net zo goed is als jij, balanceer je rond een passpercentage van 50%, wat de bits maximaliseert die je krijgt van een willekeurige binaire variabele."
Nieuwe blogpost. Onlangs hebben mensen gesproken over hoe het veel meer rekenkracht kost om een enkele sample in RL te krijgen dan tijdens de pretraining.
Maar dit is slechts de helft van het probleem.
In RL levert die dure sample meestal ook veel minder bits op.
En dit heeft implicaties voor hoe goed RLVR zal schalen, plus helpt ons te begrijpen waarom zelfspel en curriculum leren zo nuttig zijn voor RL, waarom RL-modellen bizar gekarteld zijn, en hoe we kunnen nadenken over wat mensen anders doen.
Link hieronder.
Hoe verantwoorden we de extreme onregelmatigheid die door RLVR wordt veroorzaakt?
Hoe is het mogelijk dat we modellen hebben die wereldklasse zijn in programmeerwedstrijden, maar tegelijkertijd extreem voorspelbare bugs en technische schulden door de hele codebasis achterlaten?
Nieuwe blogpost. Onlangs hebben mensen gesproken over hoe het veel meer rekenkracht kost om een enkele sample in RL te krijgen dan tijdens de pretraining.
Maar dit is slechts de helft van het probleem.
In RL levert die dure sample meestal ook veel minder bits op.
En dit heeft implicaties voor hoe goed RLVR zal schalen, plus helpt ons te begrijpen waarom zelfspel en curriculum leren zo nuttig zijn voor RL, waarom RL-modellen bizar gekarteld zijn, en hoe we kunnen nadenken over wat mensen anders doen.
Link hieronder.