這讓我腦袋崩潰。 Sea AI Lab 的一個團隊剛剛發現,強化學習訓練崩潰、大幅不穩定的梯度、推理漂移的大部分混亂,根本不是由算法造成的。 而是由數值精度造成的。 幾乎每個現代 AI 實驗室都使用的默認 BF16 格式,會引入微妙的四捨五入誤差,讓模型在訓練和推理過程中表現得不同。 他們的解決方案? 不是新的優化器。 不是新的損失函數。 只是切換到 FP16。 只需一行代碼,一切就穩定下來了。 ✅ 沒有訓練崩潰 ✅ 一致的收斂 ✅ +5–10% 更好的結果 ✅ 不需要額外調整 他們將其命名為「通過 FP16 打敗訓練–推理不匹配」, 但它本可以簡單地稱為: 「如何通過翻轉一個位元來修復 RL。」 論文:arxiv. org/abs/2510.26788