🚀¡Emocionado de compartir nuestro nuevo trabajo! 💊Problema: La precisión BF16 provoca un gran desajuste de inferencia de entrenamiento, lo que lleva a un entrenamiento de RL inestable. 💡Solución: Simplemente cambie a FP16. 🎯Eso es todo. 📰Papel: ⭐️Código: