DApp Store | Web3 Hub voor evenementen en spelletjes

Waarvoor kun je Discover gebruiken?

Populaire onderwerpen

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+0,33%

Boopa+0,15%

PORK+7,1%

Dwarkesh Patel

Dwarkesh Patel6 uur geleden

Morgen

468,09K

Dwarkesh Patel19 nov, 01:52

"Ons passpercentage kader geeft ons ook goede intuïties over waarom zelfspel zo productief is geweest in de geschiedenis van RL. Als je het opneemt tegen een speler die bijna net zo goed is als jij, balanceer je rond een passpercentage van 50%, wat de bits maximaliseert die je krijgt van een willekeurige binaire variabele."

Dwarkesh Patel18 nov, 01:09

Nieuwe blogpost. Onlangs hebben mensen gesproken over hoe het veel meer rekenkracht kost om een enkele sample in RL te krijgen dan tijdens de pretraining. Maar dit is slechts de helft van het probleem. In RL levert die dure sample meestal ook veel minder bits op. En dit heeft implicaties voor hoe goed RLVR zal schalen, plus helpt ons te begrijpen waarom zelfspel en curriculum leren zo nuttig zijn voor RL, waarom RL-modellen bizar gekarteld zijn, en hoe we kunnen nadenken over wat mensen anders doen. Link hieronder.

35,12K

Dwarkesh Patel19 nov, 00:49

Hoe verantwoorden we de extreme onregelmatigheid die door RLVR wordt veroorzaakt? Hoe is het mogelijk dat we modellen hebben die wereldklasse zijn in programmeerwedstrijden, maar tegelijkertijd extreem voorspelbare bugs en technische schulden door de hele codebasis achterlaten?

Dwarkesh Patel18 nov, 01:09

32,9K

Boven

Positie

Favorieten