与 BFloat16 相比,FP16 的训练-推理差距更小,因此更适合强化学习。即使在采用 FP16 后,强化学习算法之间的差异也消失了。令人惊讶!