創業者@_xjdrによる大規模なインフラの解放。 XJDRは狂気の科学者なので、理解するのに何度か時間がかかりました(そして今でもその可能性を完全には理解していないと思います)。 彼は、計算能力が限られた研究者(つまりハイパースケーラーの外の世界)向けに、Mixture of Experts MoEモデル(DeepSeekの背後にあるアーキテクチャ)のトレーニングスタックを完全に書き直しています 通常、これらのスパースモデルの訓練には大規模なクラスタが必要で、非常に不安定です。XJDRは、最小限のノードで効率的に運用できるように、ゼロから新しいスタックを構築しました 標準インフラ:大規模なGPUクラスターが必要(しばしば不安定) XJDRのスタック:単一GPUから8つのGPUノードへの予測可能なスケーリング。 ここでの微妙な点は、誤りを平滑化するためにブルートフォース計算に頼るのではなく、ルーターの崩壊のような特定のエンジニアリングボトルネックを解決し、小型ハードウェア上で混合精密トレーニングを安定させるという点です。 また、120Bのオラクルモデルでデータをグレーディングし、小規模モデルがより速く学習できるように、フロンティア級のデータパイプラインも構築しました。 要約:彼は工場のリポジトリ、データツール、重みをオープンソース化し、個人向けにGoogleレベルのリサーチ能力を民主化しています。 おめでとうございます@_xjdr。私たちは皆さまの旅の小さな一部になれることを心から嬉しく思います。あなたの作品をシェアしてもらえることを、心から楽しみにしています