NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin
NVIDIA 每两年一代数据中心 GPU。从 2017 年 V100 起,每一代都不是”性能加 30%”——是把整个 AI 行业往新方向推一次。本文按代次梳理。
一张时间轴
graph LR P100[2016
P100
Pascal] --> V100[2017
V100
Volta] V100 --> A100[2020
A100
Ampere] A100 --> H100[2022
H100
Hopper] H100 --> H200[2024
H200
Hopper Refresh] H200 --> B200[2024-2025
B100/B200
Blackwell] B200 --> RUBIN[2026-2027
Vera Rubin
Rubin]
NVIDIA 的代次按”知名科学家”命名——Pascal、Volta、Turing、Ampere、Hopper、Blackwell、Rubin。下一代 Rubin 已公布,再下一代 Feynman 待补充。
P100(2016,Pascal)
| 制程 | TSMC 16nm |
| 显存 | 16 GB HBM2,720 GB/s |
| FP64 / FP32 / FP16 | 5.3 / 10.6 / 21.2 TFLOPS |
| Tensor Core | 无 |
| 互联 | NVLink 1.0(160 GB/s 双向) |
| TDP | 300W |
| 封装 | SXM2 |
关键贡献:
- 首次引入 NVLink,多卡互联从 PCIe 解放
- 首次大规模用 HBM2
- DGX-1(8 卡)开始
P100 的算力今天看起来很小,但当时 ResNet 训练用 P100 是主流。
V100(2017,Volta)—— Tensor Core 的开端
| 制程 | TSMC 12nm |
| 显存 | 16/32 GB HBM2,900 GB/s |
| FP64 / FP32 / FP16 | 7.5 / 15 / 30 TFLOPS |
| Tensor Core FP16 | 125 TFLOPS |
| 互联 | NVLink 2.0(300 GB/s) |
| TDP | 300-450W |
| 封装 | SXM2 |
关键贡献:
- Tensor Core:首次出现的”4×4 矩阵乘加”专用单元,让 FP16 运算飙到 8 倍 FP32 速度
- 引入 NVSwitch(V100 32GB 配套)
- DGX-2(16 卡,2× NVSwitch 完全互联)
Tensor Core 是后续 6 代 GPU 的灵魂——大模型时代算力的真正核心。
A100(2020,Ampere)
| 制程 | TSMC 7nm |
| 显存 | 40/80 GB HBM2e,1555-2039 GB/s |
| FP64 / FP32 | 9.7 / 19.5 TFLOPS |
| Tensor Core FP16 | 312 TFLOPS(稀疏 624) |
| Tensor Core BF16/TF32 | 312 / 156 TFLOPS |
| 互联 | NVLink 3.0(600 GB/s) |
| TDP | 400-500W |
| 封装 | SXM4 / PCIe |
关键贡献:
- BF16 / TF32:精度新选项,BF16 范围像 FP32 但只占 16 bit,训练稳定性大幅提升
- 稀疏计算:2:4 结构稀疏让 Tensor Core 翻倍
- MIG(Multi-Instance GPU):一颗 A100 切成 7 个独立小 GPU,多租户友好
- NVLink Switch:8 卡 GPU 互联(DGX A100)
A100 是过去 5 年 AI 训练的”主力员工”——很多企业当前生产中仍在大量使用。
H100(2022,Hopper)—— FP8 引爆大模型
| 制程 | TSMC 4N(4nm 定制) |
| 显存 | 80 GB HBM3,3.35 TB/s |
| FP64 / FP32 | 67 / 67 TFLOPS(FP64 用 Tensor Core 后增强) |
| Tensor Core FP16/BF16 | 1979 TFLOPS dense(稀疏 2:4 ×2) |
| Tensor Core FP8 | 3958 TFLOPS dense(稀疏 7916) |
| 互联 | NVLink 4.0(900 GB/s 双向) |
| TDP | 700W |
| 封装 | SXM5 / PCIe |
| SM | 132(SXM5)/ 114(PCIe) |
注:throughput 为 dense;sparse 2:4 ×2。
关键贡献:
- FP8(E4M3 / E5M2):精度再降一半,Tensor Core 能力翻倍。配合 Transformer Engine 自动管理精度
- TMA(Tensor Memory Accelerator):异步 tensor 搬运,single thread 发起、硬件后台完成;FlashAttention-3 / CUTLASS Hopper / cuBLAS Hopper kernel 关键依赖
- Thread Block Cluster:grid → cluster → block → thread 多级调度,cluster 内通过 SM-to-SM 网络共享 shared memory(DSMEM)
- DPX 指令:动态规划加速(基因组学、路径规划)
- 4th gen NVLink(900 GB/s)+ 3rd gen NVSwitch + NVLink Network Mode(DGX H100 SuperPOD 跨节点 256 GPU 域)
- HBM3 第一次量产应用
- Confidential Computing:单 GPU TEE(基于 SEV-SNP / TDX)
H100 是 ChatGPT 时代的”硬通货”。2023-2024 年北美 AI 公司抢 H100 卡的故事成了行业典故。
Hopper 家族其他 SKU
| SKU | 形态 | 显存 | NVLink | FP8 dense | 备注 |
|---|---|---|---|---|---|
| H100 SXM5 | SXM5 | 80 GB HBM3 | 900 GB/s | 3958 | HGX H100 主力 |
| H100 PCIe | PCIe Gen5 | 80 GB HBM3 | 600 GB/s(NVL bridge) | 3026 | 单卡 / 工作站 |
| H100 NVL | 2×PCIe 桥接 | 188 GB HBM3(94×2) | NVLink bridge | 7916 | LLM 推理优化 |
| H20 | SXM5 | 96 GB HBM3 | 900 GB/s | 296 | 中国出口合规 SKU |
H20 是 2023 年美国出口管制后 NVIDIA 给中国市场的特供 —— 算力被砍到 H100 的不到 10%,但保留 96 GB HBM3 + 4 TB/s 带宽 + 完整 NVLink 4,推理友好但训练受限。
Transformer Engine
H100 的”杀手锏”——硬件 + 软件协同:
1 | |
效果:Llama 70B 从 BF16 切到 FP8 训练,速度翻倍,最终精度不掉。
H200(2024,Hopper Refresh)
| 同 H100 | 算力一致 |
| 显存 | 141 GB HBM3e,4.8 TB/s |
| TDP | 700W |
关键贡献:
- 显存从 80 GB → 141 GB,对大模型推理 KV-Cache 至关重要
- HBM3e 第一次商用
- 是 H100 的”中期改款”——架构没变,主要靠 HBM3e 升级
H200 在推理市场(Llama-2 70B、GPT-4 推理)非常受欢迎,因为大显存就是”装得下”。
B100 / B200 / B300(2024-2025,Blackwell)
Blackwell 是 Hopper 的继任架构,2024 GTC 公布。核心设计要点:双 die 单封装(两颗 reticle-limit die 通过 NV-HBI 10 TB/s 互联,对软件呈现为单一 CUDA device、单一 NVLink endpoint)+ 第二代 Transformer Engine(原生 FP4/FP6,配合 OCP MX 标准的 per-block micro-scaling)+ 第五代 NVLink。
| B100 | B200 | B300 | |
|---|---|---|---|
| 制程 | TSMC 4NP | TSMC 4NP | TSMC 4NP |
| 结构 | 双 die(NV-HBI 10 TB/s) | 同 | 同 |
| 显存 | 192 GB HBM3e | 192 GB HBM3e(8 TB/s) | 288 GB HBM3e |
| FP8 dense | 7000 TFLOPS | 9000 TFLOPS | ~10500 TFLOPS |
| FP4 dense | 14000 TFLOPS | 18000 TFLOPS | ~21000 TFLOPS |
| 互联 | NVLink 5(1.8 TB/s) | NVLink 5 | NVLink 5 |
| TDP | 700W | 1000W | ~1400W |
| 形态 | SXM (HGX) | SXM (HGX) | SXM (HGX/NVL) |
| 用途 | 风冷 retrofit | 主流 HGX | 长上下文 / 大模型推理 |
注:throughput 单位 TFLOPS,dense;Blackwell 支持 2:4 structured sparsity,sparse 吞吐再 ×2。B300 / GB300 精确 TDP 与 HBM BW 待 NVIDIA 完整 datasheet 公开。
关键贡献:
- 双 die 设计:第一颗”chiplet GPU”——跨 die L2 一致性由 NV-HBI 维护,对 CUDA 程序透明(单 GPU UUID、单 PCI BDF)
- FP4 / FP6(MX 格式):Tensor Core 第一次支持 4-bit / 6-bit 浮点,per-block micro-scaling(每 32 元素一个 E8M0 共享 scale),遵循 OCP MX 标准
- Transformer Engine v2:自动 cast + scale tracking,对接 Megatron-Core / NeMo / TensorRT-LLM
- 5th gen NVLink:单链路 100 GB/s 双向 × 18 link = 单卡 1.8 TB/s
- 5th gen NVSwitch:72 端口 × 100 GB/s,NVL72 中构成 72 GPU 单一 NVLink 域
- Decompression Engine:硬件加速 Snappy / Deflate / LZ4,针对数据分析与 RAG ingest
- RAS Engine:自检测、预测性故障转移
- Confidential Computing 扩展:从 single-GPU 扩展到 multi-GPU NVLink TEE,整个 NVL72 可作为单一 TEE 域
B200 单卡功耗 1000W,液冷成了标配——风冷扛不住。B100 是为存量风冷数据中心保留的 SKU,性能档次低于 B200。
GB200 / GB300(Grace + Blackwell Superchip)
把 1 颗 Grace CPU 配 2 颗 Blackwell GPU 用 NVLink-C2C 900 GB/s 串起来:
1 | |
GB300 把 GPU 换成 B300:1× Grace + 2× B300 = 576 GB HBM3e / Superchip,FP4 ≈ 42 PFLOPS dense。
NVLink-C2C 让 CPU 内存对 GPU 几乎是”近线 HBM 扩展”——Unified Memory 真正可用、KV cache / embedding table 可放 CPU 内存。
NVL72 整机柜 = 18 计算 tray × 2 GB200 superchip / tray = 36 superchip = 72 GPU + 36 Grace + 13.5 TB HBM3e + ~17 TB LPDDR5X。下一篇专题讲。
Vera Rubin(2026-2027)
NVIDIA 在 GTC 2024 / 2025 公布的下一代——但截至发布前,公开 keynote 之外的细节均属推断,正式规格须以 NVIDIA 后续 datasheet 为准。
| Rubin | |
|---|---|
| 命名来源 | Vera Rubin(暗物质科学家) |
| GPU | Rubin(继承双 die / 多 die 通过 NV-HBI 拼接) |
| CPU | Vera(取代 Grace,NVIDIA 自研 Olympus core,仍 Arm Neoverse 路线) |
| 显存 | HBM4,带宽 ~1.5–2× HBM3e |
| 互联 | NVLink 6(带宽 ≥ 1.8 TB/s 量级) |
| Superchip | VR200 = 1× Vera CPU + 2× Rubin GPU |
| 整机柜 | NVL144(标准版)/ NVL576(Kyber rack) |
待补充:Rubin 量产时间、HBM4 容量与带宽、FP4 算力、NVL576 详细 BOM——以 NVIDIA 正式发布为准。
Rubin Ultra / Kyber rack:目标 NVL576 = 576 GPU 在单一 NVLink 域,单机柜功率显著高于 GB200/GB300 NVL72(>500 kW 量级,需 800V HVDC 数据中心标准)。NVIDIA 推动 800V HVDC 与 OCP / 多家 OEM 合作,取消多层 AC↔DC 转换,效率↑、铜量↓。
NVIDIA 路线图 cadence 已从”两年一代”加速到 “一年一代 + 中期 refresh”。
为什么”一代翻一倍”做得到
每代算力翻倍主要来自三个地方:
graph LR M1[制程升级
16nm→7nm→4N] --> P[功率墙下塞更多晶体管] M2[精度变低
FP32→FP16→FP8→FP4] --> P M3[Tensor Core 重新设计
稀疏/结构化加速] --> P P[算力翻倍]
精度降低是大头:
1 | |
但 FP4 不是免费的——只有大模型推理 + 适当 calibration 才能用。训练用 FP8/BF16,推理才大胆 FP4。
单卡功耗的代价
1 | |
每代单卡功耗几乎翻倍——这是为什么数据中心 IT 单机柜功耗从 5kW 涨到 130kW(NVL72)的根因。散热和供电的”基础设施”压力比芯片本身更难解决。
NVIDIA 的护城河不只是 GPU
graph TB HW[GPU 硬件
Tensor Core + HBM] CONN[NVLink + NVSwitch
多卡互联] CUDA[CUDA + cuBLAS + cuDNN] FRAME[PyTorch / JAX / TF
默认 NVIDIA 后端] TRT[TensorRT-LLM / Triton
推理引擎] NEMO[NeMo / NIM / DGX Cloud
软件栈和云服务] HW --> CONN --> CUDA --> FRAME --> TRT --> NEMO
任何一家想”取代 NVIDIA”的厂家,不只要做出能打的芯片,还要复制这整条 stack——这是为什么 AMD MI300、华为昇腾、各家国产 AI 芯片在硬件上单卡指标接近,但生态远远没追上。
一些查询命令
1 | |
一张代次速查(数据中心 SXM 旗舰,dense throughput)
| 代次 | 量产 | 制程 | BF16 Tensor (dense, TFLOPS) | FP8 Tensor (dense, TFLOPS) | FP4 Tensor (dense, TFLOPS) | 单卡显存 | TDP |
|---|---|---|---|---|---|---|---|
| P100 | 2016 | 16nm | — | — | — | 16 GB HBM2 | 300W |
| V100 | 2017 | 12nm | — (FP16: 125) | — | — | 16/32 GB HBM2 | 300-450W |
| A100 | 2020 | 7nm | 312 | — | — | 40/80 GB HBM2e | 400W |
| H100 | 2022 | 4N | 1979 | 3958 | — | 80 GB HBM3 | 700W |
| H200 | 2024 | 4N | 1979 | 3958 | — | 141 GB HBM3e | 700W |
| H20 | 2024 | 4N | 148 | 296 | — | 96 GB HBM3 | 700W |
| B100 | 2024 | 4NP | ~1800 | 7000 | 14000 | 192 GB HBM3e | 700W |
| B200 | 2025 | 4NP | 2250 | 9000 | 18000 | 192 GB HBM3e | 1000W |
| B300 | 2025-2026 | 4NP | ~2625 | ~10500 | ~21000 | 288 GB HBM3e | ~1400W |
| Rubin | 2026-2027 | 待补 | 待补 | 待补 | 待补 | HBM4 | 待补 |
注:H100/H200 数字基于 NVIDIA 官方 SXM5 datasheet;B300 / Rubin 待 NVIDIA 完整 datasheet 公开。Sparse 2:4 ×2。
小结
- NVIDIA 数据中心 GPU 一代两年(近年加速到一年)
- V100 引入 Tensor Core,A100 引入 BF16/TF32 + MIG,H100 引入 FP8 + Transformer Engine
- B200 是双 die chiplet + FP4 + 整机柜 NVLink,单卡 1000W
- 算力翻倍来源:制程 + 降精度 + Tensor Core 重设计
- 真正的护城河是 CUDA + 互联 + 框架支持的整条软件栈
下一篇讲 NVLink / NVSwitch / NVL72——多卡之间怎么连成”一颗大 GPU”。