熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這讓我腦袋崩潰。
Sea AI Lab 的一個團隊剛剛發現,強化學習訓練崩潰、大幅不穩定的梯度、推理漂移的大部分混亂,根本不是由算法造成的。
而是由數值精度造成的。
幾乎每個現代 AI 實驗室都使用的默認 BF16 格式,會引入微妙的四捨五入誤差,讓模型在訓練和推理過程中表現得不同。
他們的解決方案?
不是新的優化器。
不是新的損失函數。
只是切換到 FP16。
只需一行代碼,一切就穩定下來了。
✅ 沒有訓練崩潰
✅ 一致的收斂
✅ +5–10% 更好的結果
✅ 不需要額外調整
他們將其命名為「通過 FP16 打敗訓練–推理不匹配」,
但它本可以簡單地稱為:
「如何通過翻轉一個位元來修復 RL。」
論文:arxiv. org/abs/2510.26788

熱門
排行
收藏

