熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
創始人 @_xjdr 的一項重大基礎設施解鎖。
XJDR 是一位瘋狂的科學家,所以我花了幾次才理解這一點(我仍然認為我可能還沒有完全理解其潛力)
他正在為有限計算能力的研究人員(即超大規模計算之外的世界)完全重寫 Mixture of Experts MoE 模型的訓練堆疊(DeepSeek 背後的架構)
通常,訓練這些稀疏模型需要龐大的集群,並且非常不穩定。XJDR 從零開始構建了一個新的堆疊,使其在僅一個節點上也能高效運行。
標準基礎設施:需要龐大的 GPU 集群(通常不穩定)
XJDR 的堆疊:在單個 GPU 到 8 個 GPU 節點上可預測的擴展。
這裡的細微之處在於,他不是依賴於粗暴的計算來平滑錯誤,而是解決了特定的工程瓶頸,如路由器崩潰,使混合精度訓練在小型硬體上穩定。
他還構建了一個前沿級別的數據管道,120B 的 oracle 模型對數據進行評分,以確保較小的模型學習得更快。
簡而言之:他正在開源整個工廠庫、數據工具和權重,以使個人能夠民主化 Google 級別的研究能力。
恭喜 @_xjdr。我們非常興奮能成為你旅程中的一小部分。可以說,我們對你分享你的工作感到無比興奮。
熱門
排行
收藏
