BF16 -> FP16 é uma mudança tão simples (uma alteração de configuração no Oat) mas fundamental para a discrepância entre inferência e treinamento. Com FP16, o mais básico amostragem de importância PG supera todas as correções algorítmicas em BF16. Vamos repensar a estabilidade de RL a partir da perspectiva da precisão.🔎