"Unser Passratenrahmen gibt uns auch gute Einsichten, warum Selbstspiel in der Geschichte des RL so produktiv war. Wenn du gegen einen Spieler konkurrierst, der fast so gut ist wie du, balancierst du um eine Passrate von 50 %, was die Bits maximiert, die du von einer zufälligen binären Variablen erhältst."
Neuer Blogbeitrag. Kürzlich haben die Leute darüber gesprochen, wie viel mehr Rechenleistung benötigt wird, um eine einzige Probe im RL zu erhalten als in der Vortrainingsphase.
Aber das ist nur die halbe Miete.
Im RL liefert diese teure Probe auch normalerweise viel weniger Bits.
Und das hat Auswirkungen darauf, wie gut RLVR skalieren wird, plus es hilft uns zu verstehen, warum Selbstspiel und Curriculum-Lernen so hilfreich für RL sind, warum RL-Modelle seltsamerweise gezackt sind und wie wir darüber nachdenken können, was Menschen anders machen.
Link unten.
Wie berücksichtigen wir die extreme Zackenbildung, die durch RLVR verursacht wird?
Wie ist es möglich, dass wir Modelle haben, die weltweit führend bei Programmierwettbewerben sind, aber gleichzeitig extrem vorhersehbare Fehler und technische Schulden im gesamten Code hinterlassen?
Neuer Blogbeitrag. Kürzlich haben die Leute darüber gesprochen, wie viel mehr Rechenleistung benötigt wird, um eine einzige Probe im RL zu erhalten als in der Vortrainingsphase.
Aber das ist nur die halbe Miete.
Im RL liefert diese teure Probe auch normalerweise viel weniger Bits.
Und das hat Auswirkungen darauf, wie gut RLVR skalieren wird, plus es hilft uns zu verstehen, warum Selbstspiel und Curriculum-Lernen so hilfreich für RL sind, warum RL-Modelle seltsamerweise gezackt sind und wie wir darüber nachdenken können, was Menschen anders machen.
Link unten.