🚀Excité de partager notre nouveau travail ! 💊Problème : La précision BF16 entraîne un grand décalage entre l'entraînement et l'inférence, ce qui conduit à un entraînement RL instable. 💡Solution : Il suffit de passer à FP16. 🎯C'est tout. 📰Article : ⭐️Code :