DApp Store | Web3 Hub für Ereignisse und Spiele

Was kann ich mit Discover machen?

Trend-Themen

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,06 %

Boopa+8,34 %

PORK+7,1 %

Dwarkesh Patel

Dwarkesh PatelVor 16 Stunden

Morgen

911,92K

Dwarkesh Patel19. Nov., 01:52

"Unser Passratenrahmen gibt uns auch gute Einsichten, warum Selbstspiel in der Geschichte des RL so produktiv war. Wenn du gegen einen Spieler konkurrierst, der fast so gut ist wie du, balancierst du um eine Passrate von 50 %, was die Bits maximiert, die du von einer zufälligen binären Variablen erhältst."

Dwarkesh Patel18. Nov., 01:09

Neuer Blogbeitrag. Kürzlich haben die Leute darüber gesprochen, wie viel mehr Rechenleistung benötigt wird, um eine einzige Probe im RL zu erhalten als in der Vortrainingsphase. Aber das ist nur die halbe Miete. Im RL liefert diese teure Probe auch normalerweise viel weniger Bits. Und das hat Auswirkungen darauf, wie gut RLVR skalieren wird, plus es hilft uns zu verstehen, warum Selbstspiel und Curriculum-Lernen so hilfreich für RL sind, warum RL-Modelle seltsamerweise gezackt sind und wie wir darüber nachdenken können, was Menschen anders machen. Link unten.

35,13K

Dwarkesh Patel19. Nov., 00:49

Wie berücksichtigen wir die extreme Zackenbildung, die durch RLVR verursacht wird? Wie ist es möglich, dass wir Modelle haben, die weltweit führend bei Programmierwettbewerben sind, aber gleichzeitig extrem vorhersehbare Fehler und technische Schulden im gesamten Code hinterlassen?

Dwarkesh Patel18. Nov., 01:09

32,91K

Top

Ranking

Favoriten