热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
深入了解 @nvidia 🐰 Hopper 与 ⚙️ Blackwell GPU 架构——在计算能力和互连方面的连续飞跃,助力您的 AI 工作负载👇

🐰 Hopper (H100 和 H200) 引入了第四代 Tensor Cores 和 FP8 Transformer Engine,使训练速度提高至 9 倍,推理速度提高至 30 倍,相比 A100。
⚙️ Blackwell (B200)—预计于 2024 年底发货—将两个芯片配对,通过 10 TB/s NV-HBI,增加 FP4,并使用 NVLink-5 实现高达 30 倍的集群推理。


@nvidia 🐰 霍普规格
张量核心:混合 FP8/FP16/TF32
内存:
- H100 → 80 GB HBM3 @ 3.35 TB/s
- H200 → 141 GB HBM3e @ 4.8 TB/s
NVLink:每个 GPU 高达 900 GB/s
@nvidia 🐰 Hopper 正在运行中
基准测试显示 H200 在 Llama-2 70B 推理中比 H100 快 45–100%。
⚠️ 两者在 2023–25 年都经历了供应紧缩。
💻 在 Hyperbolic 的云上:H100 虚拟机和裸金属集群,配备以太网 + InfiniBand,起价 $1.49/小时。H200 和 B200 可通过即时报价获取。

@nvidia ⚙️ Blackwell Innovations
- 芯片设计 (TSMC 4NP, 2080亿个晶体管, 10 TB/s NV-HBI)
- 第二代变压器引擎: FP4 + 增强版 FP8
- NVLink-5: 18条链接 @ 1.8 TB/s 总计
- 解压引擎: 800 GB/s CPU↔GPU
- 完整的 RAS & 机密计算
📊 性能比较
H100 SXM: 80 GB @ 3.35 TB/s, 3.96 PFLOPS (FP8), 1.98 PFLOPS (FP16), 67 TFLOPS (FP32), NVLink 900 GB/s, 700 W
H200 SXM: 141 GB @ 4.8 TB/s, 相同的计算 PFLOPS/TFLOPS, NVLink 900 GB/s, 700 W
HGX B200: 180 GB @ 7.7 TB/s, 9 PFLOPS (FP8), 4.5 PFLOPS (FP16), 75 TFLOPS (FP32), NVLink 1.8 TB/s, 1000 W
@nvidia ❓ 什么是FLOP?
1个浮点运算(加/乘)
1 TFLOP = 10¹² 次运算/秒
1 PFLOP = 10¹⁵ 次运算/秒 = 1000× TFLOP
这些指标显示了GPU在AI训练和高性能计算(HPC)中处理大量数学运算的速度。
@nvidia 🔚 总结:
🐰 Hopper 以 FP8 混合精度和异步管道设定了标准。
⚙️ Blackwell 通过 FP4、更多内存和 NVLink-5 推动下一代。
H100 仍然是主力——租用费用为 $1.49/小时。
H200 和 B200 可根据请求提供。
@nvidia 阅读完整文章请访问:
4.05K
热门
排行
收藏