FP16 相較於 BFloat16 可以有更小的訓練-推論差距,因此更適合用於強化學習。即使是強化學習算法之間的差異,一旦採用 FP16 也會消失。驚人!