热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这让我脑子都要炸了。
Sea AI Lab 的一个团队刚刚发现,强化学习训练崩溃、大幅度不稳定的梯度、推理漂移的大部分混乱并不是由算法引起的。
而是由数值精度引起的。
几乎所有现代 AI 实验室使用的默认 BF16 格式引入了微妙的舍入误差,使得模型在训练和推理期间表现不同。
他们的解决方案?
不是新的优化器。
不是新的损失函数。
只是切换到 FP16。
只需一行代码,一切就稳定了。
✅ 没有训练崩溃
✅ 一致的收敛
✅ +5–10% 更好的结果
✅ 不需要额外调优
他们将其命名为“通过 FP16 战胜训练-推理不匹配”,
但它本可以简单地称为:
“如何通过翻转一个比特来修复 RL。”
论文:arxiv. org/abs/2510.26788

热门
排行
收藏

