🚀很高兴分享我们的新工作! 💊问题:BF16 精度导致训练与推理之间存在较大不匹配,从而导致不稳定的强化学习训练。 💡解决方案:只需切换到 FP16。 🎯就这样。 📰论文: ⭐️代码: