熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
深入了解 @nvidia 🐰 Hopper 與 ⚙️ Blackwell GPU 架構——在計算能力和互連方面的連續飛躍,為您的 AI 工作負載提供支持👇

🐰 Hopper (H100 和 H200) 引入了第四代 Tensor Cores 和 FP8 Transformer Engine,訓練速度提高至 9 倍,推理速度提高至 30 倍,相較於 A100。
⚙️ Blackwell (B200)—預計於 2024 年底發貨—將兩個晶片配對在 10 TB/s 的 NV-HBI 上,增加了 FP4,並使用 NVLink-5 以實現高達 30 倍的集群推理。


@nvidia 🐰 Hopper 規格
張量核心:混合 FP8/FP16/TF32
記憶體:
- H100 → 80 GB HBM3 @ 3.35 TB/s
- H200 → 141 GB HBM3e @ 4.8 TB/s
NVLink:每個 GPU 高達 900 GB/s
@nvidia 🐰 Hopper 正在運行中
基準測試顯示 H200 在 Llama-2 70B 推理中比 H100 快 45–100%。
⚠️ 兩者在 2023–25 年都面臨供應緊張。
💻 在 Hyperbolic 的雲端上:H100 虛擬機和裸金屬集群,配備以太網 + InfiniBand,起價 $1.49/小時。H200 和 B200 可通過即時報價獲得。

@nvidia ⚙️ Blackwell Innovations
- 晶片設計 (TSMC 4NP, 2080億個晶體管, 10 TB/s NV-HBI)
- 第二代變壓器引擎: FP4 + 增強型 FP8
- NVLink-5: 18 條連接 @ 1.8 TB/s 總計
- 解壓引擎: 800 GB/s CPU↔GPU
- 完整 RAS & 機密計算
📊 性能比較
H100 SXM: 80 GB @ 3.35 TB/s, 3.96 PFLOPS (FP8), 1.98 PFLOPS (FP16), 67 TFLOPS (FP32), NVLink 900 GB/s, 700 W
H200 SXM: 141 GB @ 4.8 TB/s, 相同的計算 PFLOPS/TFLOPS, NVLink 900 GB/s, 700 W
HGX B200: 180 GB @ 7.7 TB/s, 9 PFLOPS (FP8), 4.5 PFLOPS (FP16), 75 TFLOPS (FP32), NVLink 1.8 TB/s, 1000 W
@nvidia ❓ FLOP 是什麼?
1 次浮點運算(加/乘)
1 TFLOP = 10¹² 次運算/秒
1 PFLOP = 10¹⁵ 次運算/秒 = 1000 倍的 TFLOP
這些指標顯示了 GPU 在 AI 訓練和高性能計算(HPC)背後處理大量數學運算的速度。
@nvidia 🔚 總結:
🐰 Hopper 以 FP8 混合精度和非同步管道設立了標杆。
⚙️ Blackwell 以 FP4、更多記憶體和 NVLink-5 推進下一代技術。
H100 仍然是工作馬—租用價格為 $1.49/小時。
H200 和 B200 可根據要求提供。
@nvidia 閱讀完整文章:
4.05K
熱門
排行
收藏