FP16 peut avoir un écart d'entraînement-inférence plus petit par rapport à BFloat16, ce qui le rend mieux adapté pour le RL. Même la différence entre les algorithmes RL disparaît une fois que FP16 est adopté. Surprenant !