FP16 может иметь меньший разрыв между обучением и выводом по сравнению с BFloat16, что делает его более подходящим для RL. Даже разница между алгоритмами RL исчезает, как только FP16 принимается. Удивительно!