跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+5.08%
USELESS
+4.87%
IKUN
-18.63%
gib
+2.13%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+1.24%
ALON
-6.83%
LAUNCHCOIN
-1.5%
GOONC
-0.38%
KLED
-8.12%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.11%
Boopa
-0.99%
PORK
0.00%
主頁
xjdr
PTX 享受者
查看原文
xjdr
12月18日 09:19
有了 nmoe,我終於覺得我在 pytorch、cuda、CuteDSL 和 b200s 的專業知識與我在 Jax、pallas、mosaic 和 TPU v4 的舊專業知識相匹配。這花了將近兩年的時間。
368
xjdr
12月18日 08:51
TL;DR 關於 nmoe 倉庫和架構: 我可以在單個 8xB200 節點上進行實際的 nvfp4 原生 16B 參數模型訓練,並且可以在不到 128 個 GPU 的情況下,在約 30 天內完成全訓練運行(包括數據管道) 推算出來,這意味著我理論上可以在單個 GB300 NVL72 上完成一次完整的 deepseek-V3 訓練運行,時間少於 90 天
191
xjdr
12月18日 08:21
對於所有下載 nmoe 然後問 claude "這到底是什麼?" 的你們,請確保在它做任何其他事情之前先在倉庫中閱讀它。
90
熱門
排行
收藏