🚀Glada att dela med oss av vårt nya arbete! 💊Problem: BF16-precisionen orsakar ett stort matchningsfel mellan träning och inferens, vilket leder till instabil RL-träning. 💡Lösning: Byt bara till FP16. 🎯Det är allt. 📰Papper: ⭐️Kod: