我已经决定尽快尝试,我们都应该试试fp16,看看这个图表,伙计。FP16在误差减少方面简直完美。 “这正是为什么切换到FP16提供了根本解决方案。FP16具有10个尾数位,提供比BF16多8倍的精度(2^10个值对比2^7个值)。这种更高的保真度意味着训练和推理引擎的输出更有可能在数值上完全相同。增加的精度创造了一个缓冲区,吸收了两个引擎之间的微小实现差异,防止了舍入误差的累积,从而导致策略偏差。 对于RL微调,模型权重和激活的动态范围在预训练期间已经建立。因此,BF16的极端范围不那么重要,而它所牺牲的精度则成为一个主要缺点。通过恢复到FP16,我们用关键的精度替代了BF16不必要的范围,有效地缩小了训练和推理之间的差距,而无需任何复杂的算法或工程变通。
关键词 "尝试",很多事情可能会妨碍这个的扩展,但有时事情就是这样运作的。没有灵丹妙药,但有时会有简单的胜利。
我敢打赌,这在不同的模型和其他实现细节上差异很大。
随着时间的推移,变得不那么确信了,去关注一下 @finbarrtimbers
136.46K