Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Das hat meinen Verstand überfordert.
Ein Team vom Sea AI Lab hat gerade entdeckt, dass der Großteil des Chaos bei der Schulung von Reinforcement Learning, das Zusammenbrechen, instabile Gradienten und Inferenzdrift nicht durch die Algorithmen verursacht wurde.
Es wurde durch numerische Präzision verursacht.
Das Standardformat BF16, das in fast jedem modernen KI-Labor verwendet wird, führt zu subtilen Rundungsfehlern, die dazu führen, dass Modelle während des Trainings und der Inferenz unterschiedlich reagieren.
Ihre Lösung?
Kein neuer Optimierer.
Keine neue Verlustfunktion.
Einfach zu FP16 wechseln.
Eine Zeile Code und alles stabilisierte sich.
✅ Kein Trainingszusammenbruch
✅ Konsistente Konvergenz
✅ +5–10% bessere Ergebnisse
✅ Keine zusätzliche Feinabstimmung erforderlich
Sie haben es "Die Überwindung der Trainings-Inferenz-Diskrepanz über FP16" genannt,
aber es hätte einfach "Wie man RL durch das Umdrehen eines einzelnen Bits repariert" genannt werden können.
Papier: arxiv. org/abs/2510.26788

Top
Ranking
Favoriten

