私はできるだけ早くそれを試してみることを確信しています、私たちは皆fp16を試すべきです、このプロットマンを見てください。FP16はエラー削減において完璧です。 「これがまさに、FP16への切り替えが根本的な解決策を提供する理由です。10 個の仮数ビットを備えた FP16 は、BF16 の 8 倍の精度 (2^10 値対 2^7 値) を提供します。この忠実度が高いということは、トレーニングエンジンと推論エンジンの出力が数値的に同一である可能性がはるかに高いことを意味します。精度の向上により、2 つのエンジン間の実装のわずかな違いを吸収するバッファが作成され、丸めエラーが蓄積されてポリシーの相違が発生するのを防ぎます。 RLの微調整では、モデルの重みと活性化のダイナミックレンジは、事前学習中にすでに確立されています。したがって、BF16 の極限範囲はそれほど重要ではありませんが、犠牲になる精度が主な欠点になります。FP16 に戻すことで、BF16 の不要な範囲を重要な精度と引き換えに、複雑なアルゴリズムやエンジニアリングの回避策を講じることなく、トレーニングと推論の間のギャップを効果的に埋めることができます。」
キーワード「試してみてください」、これをスケーリングするには多くのことが妨げられる可能性がありますが、時にはこのように機能することもあります。万能薬はありませんが、時には簡単に勝つこともあります。
モデルやその他の IMPL の詳細によって大きく異なるに違いありません
時間が経つにつれて納得できなくなったら、ただフォローしなさい@finbarrtimbers
136.46K