創始人 @_xjdr 的一項重大基礎設施解鎖。 XJDR 是一位瘋狂的科學家,所以我花了幾次才理解這一點(我仍然認為我可能還沒有完全理解其潛力) 他正在為有限計算能力的研究人員(即超大規模計算之外的世界)完全重寫 Mixture of Experts MoE 模型的訓練堆疊(DeepSeek 背後的架構) 通常,訓練這些稀疏模型需要龐大的集群,並且非常不穩定。XJDR 從零開始構建了一個新的堆疊,使其在僅一個節點上也能高效運行。 標準基礎設施:需要龐大的 GPU 集群(通常不穩定) XJDR 的堆疊:在單個 GPU 到 8 個 GPU 節點上可預測的擴展。 這裡的細微之處在於,他不是依賴於粗暴的計算來平滑錯誤,而是解決了特定的工程瓶頸,如路由器崩潰,使混合精度訓練在小型硬體上穩定。 他還構建了一個前沿級別的數據管道,120B 的 oracle 模型對數據進行評分,以確保較小的模型學習得更快。 簡而言之:他正在開源整個工廠庫、數據工具和權重,以使個人能夠民主化 Google 級別的研究能力。 恭喜 @_xjdr。我們非常興奮能成為你旅程中的一小部分。可以說,我們對你分享你的工作感到無比興奮。