🚀Entusiasmado para compartilhar nosso novo trabalho! 💊Problema: A precisão BF16 causa um grande desvio entre treinamento e inferência, levando a um treinamento de RL instável. 💡Solução: Basta mudar para FP16. 🎯É isso. 📰Artigo: ⭐️Código: