🚀Ich freue mich, unsere neue Arbeit zu teilen! 💊Problem: Die BF16-Präzision verursacht eine große Diskrepanz zwischen Training und Inferenz, was zu instabilem RL-Training führt. 💡Lösung: Einfach auf FP16 umschalten. 🎯Das war's. 📰Papier: ⭐️Code: