这让我脑子都要炸了。 Sea AI Lab 的一个团队刚刚发现,强化学习训练崩溃、大幅度不稳定的梯度、推理漂移的大部分混乱并不是由算法引起的。 而是由数值精度引起的。 几乎所有现代 AI 实验室使用的默认 BF16 格式引入了微妙的舍入误差,使得模型在训练和推理期间表现不同。 他们的解决方案? 不是新的优化器。 不是新的损失函数。 只是切换到 FP16。 只需一行代码,一切就稳定了。 ✅ 没有训练崩溃 ✅ 一致的收敛 ✅ +5–10% 更好的结果 ✅ 不需要额外调优 他们将其命名为“通过 FP16 战胜训练-推理不匹配”, 但它本可以简单地称为: “如何通过翻转一个比特来修复 RL。” 论文:arxiv. org/abs/2510.26788