BF16 -> FP16 é uma correção tão simples (uma mudança de configuração no Oat), mas fundamental, para a incompatibilidade de treinamento de inferência. Com FP16, a amostragem de importância mais básica PG supera todas as correções algorítmicas no BF16. Vamos repensar a estabilidade do RL da perspectiva da precisão. 🔎