一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

創始人 @_xjdr 的一項重大基礎設施解鎖。 XJDR 是一位瘋狂的科學家，所以我花了幾次才理解這一點（我仍然認為我可能還沒有完全理解其潛力）他正在為有限計算能力的研究人員（即超大規模計算之外的世界）完全重寫 Mixture of Experts MoE 模型的訓練堆疊（DeepSeek 背後的架構）通常，訓練這些稀疏模型需要龐大的集群，並且非常不穩定。XJDR 從零開始構建了一個新的堆疊，使其在僅一個節點上也能高效運行。標準基礎設施：需要龐大的 GPU 集群（通常不穩定） XJDR 的堆疊：在單個 GPU 到 8 個 GPU 節點上可預測的擴展。這裡的細微之處在於，他不是依賴於粗暴的計算來平滑錯誤，而是解決了特定的工程瓶頸，如路由器崩潰，使混合精度訓練在小型硬體上穩定。他還構建了一個前沿級別的數據管道，120B 的 oracle 模型對數據進行評分，以確保較小的模型學習得更快。簡而言之：他正在開源整個工廠庫、數據工具和權重，以使個人能夠民主化 Google 級別的研究能力。恭喜 @_xjdr。我們非常興奮能成為你旅程中的一小部分。可以說，我們對你分享你的工作感到無比興奮。