🚀私たちの新しい作品を共有できることを楽しみにしています! 💊問題: BF16 の精度により、トレーニングと推論の不一致が大きくなり、RL トレーニングが不安定になります。 💡解決策: FP16 に切り替えてください。 🎯それです。 📰紙: ⭐️コード: