FP16 può avere un gap di addestramento-inferenza più piccolo rispetto a BFloat16, quindi si adatta meglio per RL. Anche la differenza tra gli algoritmi RL svanisce una volta adottato FP16. Sorprendente!