🚀Senang membagikan karya baru kami! 💊Masalah: Presisi BF16 menyebabkan ketidakcocokan inferensi pelatihan yang besar, yang menyebabkan pelatihan RL tidak stabil. 💡Solusi: Cukup beralih ke FP16. 🎯Itu saja. 📰Kertas: ⭐️Kode: