FP16 pode ter uma menor diferença entre treino e inferência em comparação com BFloat16, assim se adapta melhor para RL. Até mesmo a diferença entre os algoritmos de RL desaparece uma vez que o FP16 é adotado. Surpreendente!