Deepseekの新しい多様体制約ハイパーコネクション論文のざっと読み込み: - 残差サイズを1×Cからn×C(1のストリームではなくn本)に増やしたい。以前の残留更新:x' = x + layer(x)。xをn×Cにし、代わりにx' = Ax + Bレイヤー(Cx)を使います。A、B、Cはすべてxに依存し、小さな行列(n×n、n×1、n×1)です。Aが最も影響力があるように思えます。これがハイパーコネクション(HC)です。 - HCは他の残差修飾スキームと同じ問題を抱え、最終的に学習したA行列の積(恒等経路に沿って)が爆発したり消失したりします。 - これを解決するために、A行列をバークホフ多胞体に射影します(簡単に言えば、expの後に元を正にし、行和と列和が1になる行列に変換します。これは二重確率行列と呼ばれます)。これには良い性質があります。これらの行列の積は行と列の和が1(閉包のため)なので、爆発しないように(スペクトル束縛)、そして不変量としてストリーム間の重みの和が1になることです。n = 1の場合、これが標準残差流となり、これは良いことです。変換方法は簡単で、行と列をそれぞれ行と列の和で割り、20回の反復で割り(無限回に進むにつれて望ましい行列に収束します)。彼らは20で前後パスの両方に十分だと判断しました(60層にわたり、最大後方ゲインは1.6で通常のHCの3000より大きく、1.6は1から大きくずれていません)。 - これらの行列(すべての置換行列の凸包)を合成すると、層指数が増加するにつれて情報の混合が生じ、これは直感的な要素であり、60層の複合行列にも非常に明確に示されています。全体として、残差経路の重み付き和(勾配を考える)が得られると考えます。論理的にグループ化可能な経路の重みは1です。個人的にはかなり原則的なアプローチで、前進・後退の進展も非常に安定しています。 - 興味深い点は、レイヤーの後半に比べて前半で「プーリング」のようなミキシングが多いことです。レイヤーの後半は、異なるチャンネルをより正確かつ鋭く扱い、直感的です。 - また、BとCのパラメータ化も変更します(符号変更を避けるためにtanhの代わりにシグモイドにし、Bの前に2倍の乗数を配置します。これは平均残差乗率を保存するためだと思います。Cは入力が事前にノルムされているため、この必要はないと思います)。 - この操作を高速化するためのクールなシステム最適化 - 彼らはカーネル融合、mHCバックワードパスでの再計算、さらにはパイプライン並列実装であるDualPipeの修正も行っています。 - n=4の場合のトレーニングオーバーヘッドはわずか6.7%で、損失は0.02減少し、ベンチマーク全体で改善が見られます。