FP16 kan een kleinere kloof tussen training en inferentie hebben in vergelijking met BFloat16, waardoor het beter past bij RL. Zelfs het verschil tussen RL-algoritmen verdwijnt zodra FP16 wordt aangenomen. Verrassend!