AI 分散トレーニングに関して言えば、web2AI サークルの人々は、コンピューティング パワー デバイスを集約できるという理由で、それを「誤った命題」としてレッテルを貼るでしょうが、分散型で効果的なコラボレーションにはひどい帯域幅コストがかかりますか? そして、最近DiLoCoxの論文を発表した@0G_labs、この問題を解決することが目標のようですか? それについて詳しく話しましょう: 1) 分散トレーニングが「誤った命題」と見なされる理由について話しましょう。 核となる矛盾は単純で、100 個の安価な GPU を 100 個の安価な GPU を集約して 100 個の A100 を置き換えると、ハードウェア コストの 90% を節約できるように見えますが、これらの 100 個の GPU は同期的にトレーニングする必要があり、各エポックはテラバイトの勾配データを交換する必要があります。 従来のソリューションには 100Gbps の専用回線帯域幅が必要ですが、100Gbps のデータセンター レベルのネットワークに到達するには、月額数十万ドルの費用がかかる場合があります。 合計すると、節約した GPU のお金はすべて帯域幅に費やされ、逆さまにされることさえあります。 このロジックによれば、マシンのコストは節約できるが、追加の帯域幅コストが発生することは、問題が解決されていないことを意味するものではありませんか? したがって、誤った命題で批判される核心は常にここにある。 2)0GのDiLoCoX論文は、従来のAllReduce方式の357倍の1Gbpsネットワーク(通常のオフィス帯域幅)で107Bパラメータモデルを学習させると主張したため注目を集めました。 この数字は本当に爆発的です - ご存知のように、1Gbps 対 100Gbps では、帯域幅の差は 100 倍ですが、トレーニング速度は 357 倍速いですか? どうやってするの? 大まかな調査の結果、この一連のスキームは 4 つの最適化を行っていることがわかりました。 パイプライン並列処理は、モデルをセグメントにスライスします。 デュアルオプティマイザポリシー デュアルオプティマイザポリシーによる同期頻度を減らします。 One-Step-Delay Overlap により、通信とコンピューティングを相互に待たずに並行して実行できます。 アダプティブグラデーション圧縮は、グラデーションをインテリジェントに圧縮します。 平たく言えば、元々必要な「リアルタイムの強い同期」を「非同期の弱い同期」に変更し、「完全なデータ送信」を「圧縮された増分送信」に変更することです。 たとえば、従来のソリューションは 100 人のリアルタイム ビデオ会議のようなもので、各人のすべてのアクションが同時にブロードキャストされますが、DiLoCoX は全員が個別に録画し、キーフレームと変更のみを送信するようなものです。 トラフィック量は100倍に減少しましたが、情報の整合性は99%以上を維持しています。 なぜこれが可能なのでしょうか? 私の意見では、核心は AI トレーニングの特徴であるフォールト トレランスを捉えていることです。 モデルのトレーニングは、トランザクション転送とは異なり、トランザクション転送は一銭も足りません。 勾配の更新に少しエラーがあり、同期が遅れ、最終的なモデル収束効果にはほとんど影響がありません。 DiLoCoXは、この「フォールトトレランススペース」を使用して、許容可能な精度の損失を桁違いな効率の向上と交換します。 これは典型的なエンジニアリングの考え方であり、完璧を追求するのではなく、最高のコストパフォーマンスを追求します。 3)しかし、帯域幅の問題を解決するには十分ではなく、0Gの方が明らかに野心的です。 全体的なアーキテクチャを見てください: Filecoin を粉砕すると直接主張する 10 ドル/TB のストレージ層も備えており、DA 層は AI が GB レベルのスループットを達成するように設計されています。 この設計がストレージを 100 倍安く実現できる理由は、率直に言って、AI トレーニング シナリオの特別な最適化でもあり、たとえば、トレーニング プロセス中に生成されるチェックポイントとログのライフサイクルはわずか数日であり、実際には「永久ストレージ」を厳密に達成する必要はありません。 したがって、実際には「階層型ストレージ」という実用的なソリューションが採用され、必要なときに対応するレベルのサービスのみが提供されます - ホット データの読み取りと書き込みは高速ですがコストが高く、コールド データは安価ですが遅く、一時データは使い果たされたときに削除するのが最も安価です。 そして、この差別化された価格設定こそが、AI トレーニングの重要なポイントに直接当てはまります。 上。 0G Labs は、AI トレーニング プロセスにおけるコンピューティング能力、ストレージ、データ循環の問題に対して意図的に AI 適応を行っていることがわかります。 コンセンサスメカニズムもAI向けに最適化されています。 CometBFT の改良版は、AI ワークロードなどの非同期特性に合わせて特別に調整された、秒未満のファイナリティを持つ 2500+ TPS で使用されます。 言い換えれば、0G は既存のブロックチェーンに AI を「パッチ」する代わりに、「AI ネイティブ」インフラストラクチャをゼロから設計したのです。 従来の AI との競争の圧迫の下で最終的にアプリケーション レベルの商用検証を取得できるかどうかはまだわかりませんが、この差別化された画期的なアイデアは学ぶ価値があります。
4.94K