深入了解 @nvidia 🐰 Hopper 與 ⚙️ Blackwell GPU 架構——在計算能力和互連方面的連續飛躍,為您的 AI 工作負載提供支持👇
🐰 Hopper (H100 和 H200) 引入了第四代 Tensor Cores 和 FP8 Transformer Engine,訓練速度提高至 9 倍,推理速度提高至 30 倍,相較於 A100。 ⚙️ Blackwell (B200)—預計於 2024 年底發貨—將兩個晶片配對在 10 TB/s 的 NV-HBI 上,增加了 FP4,並使用 NVLink-5 以實現高達 30 倍的集群推理。
@nvidia 🐰 Hopper 規格 張量核心:混合 FP8/FP16/TF32 記憶體: - H100 → 80 GB HBM3 @ 3.35 TB/s - H200 → 141 GB HBM3e @ 4.8 TB/s NVLink:每個 GPU 高達 900 GB/s
@nvidia 🐰 Hopper 正在運行中 基準測試顯示 H200 在 Llama-2 70B 推理中比 H100 快 45–100%。 ⚠️ 兩者在 2023–25 年都面臨供應緊張。 💻 在 Hyperbolic 的雲端上:H100 虛擬機和裸金屬集群,配備以太網 + InfiniBand,起價 $1.49/小時。H200 和 B200 可通過即時報價獲得。
@nvidia ⚙️ Blackwell Innovations - 晶片設計 (TSMC 4NP, 2080億個晶體管, 10 TB/s NV-HBI) - 第二代變壓器引擎: FP4 + 增強型 FP8 - NVLink-5: 18 條連接 @ 1.8 TB/s 總計 - 解壓引擎: 800 GB/s CPU↔GPU - 完整 RAS & 機密計算
📊 性能比較 H100 SXM: 80 GB @ 3.35 TB/s, 3.96 PFLOPS (FP8), 1.98 PFLOPS (FP16), 67 TFLOPS (FP32), NVLink 900 GB/s, 700 W H200 SXM: 141 GB @ 4.8 TB/s, 相同的計算 PFLOPS/TFLOPS, NVLink 900 GB/s, 700 W HGX B200: 180 GB @ 7.7 TB/s, 9 PFLOPS (FP8), 4.5 PFLOPS (FP16), 75 TFLOPS (FP32), NVLink 1.8 TB/s, 1000 W
@nvidia ❓ FLOP 是什麼? 1 次浮點運算(加/乘) 1 TFLOP = 10¹² 次運算/秒 1 PFLOP = 10¹⁵ 次運算/秒 = 1000 倍的 TFLOP 這些指標顯示了 GPU 在 AI 訓練和高性能計算(HPC)背後處理大量數學運算的速度。
@nvidia 🔚 總結: 🐰 Hopper 以 FP8 混合精度和非同步管道設立了標杆。 ⚙️ Blackwell 以 FP4、更多記憶體和 NVLink-5 推進下一代技術。 H100 仍然是工作馬—租用價格為 $1.49/小時。 H200 和 B200 可根據要求提供。
@nvidia 閱讀完整文章:
4.05K