🚀¡Emocionado de compartir nuestro nuevo trabajo! 💊Problema: La precisión BF16 causa una gran discrepancia entre el entrenamiento y la inferencia, lo que lleva a un entrenamiento de RL inestable. 💡Solución: Simplemente cambia a FP16. 🎯Eso es todo. 📰Artículo: ⭐️Código: