NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin

NVIDIA 每两年一代数据中心 GPU。从 2017 年 V100 起,每一代都不是”性能加 30%”——是把整个 AI 行业往新方向推一次。本文按代次梳理。

一张时间轴

graph LR
  P100[2016
P100
Pascal] --> V100[2017
V100
Volta] V100 --> A100[2020
A100
Ampere] A100 --> H100[2022
H100
Hopper] H100 --> H200[2024
H200
Hopper Refresh] H200 --> B200[2024-2025
B100/B200
Blackwell] B200 --> RUBIN[2026-2027
Vera Rubin
Rubin]

NVIDIA 的代次按”知名科学家”命名——Pascal、Volta、Turing、Ampere、Hopper、Blackwell、Rubin。下一代 Rubin 已公布,再下一代 Feynman 待补充。

P100(2016,Pascal)

制程 TSMC 16nm
显存 16 GB HBM2,720 GB/s
FP64 / FP32 / FP16 5.3 / 10.6 / 21.2 TFLOPS
Tensor Core
互联 NVLink 1.0(160 GB/s 双向)
TDP 300W
封装 SXM2

关键贡献

  • 首次引入 NVLink,多卡互联从 PCIe 解放
  • 首次大规模用 HBM2
  • DGX-1(8 卡)开始

P100 的算力今天看起来很小,但当时 ResNet 训练用 P100 是主流。

V100(2017,Volta)—— Tensor Core 的开端

制程 TSMC 12nm
显存 16/32 GB HBM2,900 GB/s
FP64 / FP32 / FP16 7.5 / 15 / 30 TFLOPS
Tensor Core FP16 125 TFLOPS
互联 NVLink 2.0(300 GB/s)
TDP 300-450W
封装 SXM2

关键贡献

  • Tensor Core:首次出现的”4×4 矩阵乘加”专用单元,让 FP16 运算飙到 8 倍 FP32 速度
  • 引入 NVSwitch(V100 32GB 配套)
  • DGX-2(16 卡,2× NVSwitch 完全互联)

Tensor Core 是后续 6 代 GPU 的灵魂——大模型时代算力的真正核心。

A100(2020,Ampere)

制程 TSMC 7nm
显存 40/80 GB HBM2e,1555-2039 GB/s
FP64 / FP32 9.7 / 19.5 TFLOPS
Tensor Core FP16 312 TFLOPS(稀疏 624)
Tensor Core BF16/TF32 312 / 156 TFLOPS
互联 NVLink 3.0(600 GB/s)
TDP 400-500W
封装 SXM4 / PCIe

关键贡献

  • BF16 / TF32:精度新选项,BF16 范围像 FP32 但只占 16 bit,训练稳定性大幅提升
  • 稀疏计算:2:4 结构稀疏让 Tensor Core 翻倍
  • MIG(Multi-Instance GPU):一颗 A100 切成 7 个独立小 GPU,多租户友好
  • NVLink Switch:8 卡 GPU 互联(DGX A100)

A100 是过去 5 年 AI 训练的”主力员工”——很多企业当前生产中仍在大量使用。

H100(2022,Hopper)—— FP8 引爆大模型

制程 TSMC 4N(4nm 定制)
显存 80 GB HBM3,3.35 TB/s
FP64 / FP32 67 / 67 TFLOPS(FP64 用 Tensor Core 后增强)
Tensor Core FP16/BF16 1979 TFLOPS dense(稀疏 2:4 ×2)
Tensor Core FP8 3958 TFLOPS dense(稀疏 7916)
互联 NVLink 4.0(900 GB/s 双向)
TDP 700W
封装 SXM5 / PCIe
SM 132(SXM5)/ 114(PCIe)

注:throughput 为 dense;sparse 2:4 ×2。

关键贡献

  • FP8(E4M3 / E5M2):精度再降一半,Tensor Core 能力翻倍。配合 Transformer Engine 自动管理精度
  • TMA(Tensor Memory Accelerator):异步 tensor 搬运,single thread 发起、硬件后台完成;FlashAttention-3 / CUTLASS Hopper / cuBLAS Hopper kernel 关键依赖
  • Thread Block Cluster:grid → cluster → block → thread 多级调度,cluster 内通过 SM-to-SM 网络共享 shared memory(DSMEM)
  • DPX 指令:动态规划加速(基因组学、路径规划)
  • 4th gen NVLink(900 GB/s)+ 3rd gen NVSwitch + NVLink Network Mode(DGX H100 SuperPOD 跨节点 256 GPU 域)
  • HBM3 第一次量产应用
  • Confidential Computing:单 GPU TEE(基于 SEV-SNP / TDX)

H100 是 ChatGPT 时代的”硬通货”。2023-2024 年北美 AI 公司抢 H100 卡的故事成了行业典故。

Hopper 家族其他 SKU

SKU 形态 显存 NVLink FP8 dense 备注
H100 SXM5 SXM5 80 GB HBM3 900 GB/s 3958 HGX H100 主力
H100 PCIe PCIe Gen5 80 GB HBM3 600 GB/s(NVL bridge) 3026 单卡 / 工作站
H100 NVL 2×PCIe 桥接 188 GB HBM3(94×2) NVLink bridge 7916 LLM 推理优化
H20 SXM5 96 GB HBM3 900 GB/s 296 中国出口合规 SKU

H20 是 2023 年美国出口管制后 NVIDIA 给中国市场的特供 —— 算力被砍到 H100 的不到 10%,但保留 96 GB HBM3 + 4 TB/s 带宽 + 完整 NVLink 4,推理友好但训练受限

Transformer Engine

H100 的”杀手锏”——硬件 + 软件协同:

1
2
3
4
5
训练时一层一层观察激活分布
→ 自动选 FP8 / BF16 / FP16 哪个最合适
→ 用 per-tensor scale 校准
→ 防止溢出 / 下溢
→ 不损失精度的前提下用 FP8 跑训练

效果:Llama 70B 从 BF16 切到 FP8 训练,速度翻倍,最终精度不掉

H200(2024,Hopper Refresh)

同 H100 算力一致
显存 141 GB HBM3e,4.8 TB/s
TDP 700W

关键贡献

  • 显存从 80 GB → 141 GB,对大模型推理 KV-Cache 至关重要
  • HBM3e 第一次商用
  • 是 H100 的”中期改款”——架构没变,主要靠 HBM3e 升级

H200 在推理市场(Llama-2 70B、GPT-4 推理)非常受欢迎,因为大显存就是”装得下”。

B100 / B200 / B300(2024-2025,Blackwell)

Blackwell 是 Hopper 的继任架构,2024 GTC 公布。核心设计要点:双 die 单封装(两颗 reticle-limit die 通过 NV-HBI 10 TB/s 互联,对软件呈现为单一 CUDA device、单一 NVLink endpoint)+ 第二代 Transformer Engine(原生 FP4/FP6,配合 OCP MX 标准的 per-block micro-scaling)+ 第五代 NVLink。

B100 B200 B300
制程 TSMC 4NP TSMC 4NP TSMC 4NP
结构 双 die(NV-HBI 10 TB/s)
显存 192 GB HBM3e 192 GB HBM3e(8 TB/s) 288 GB HBM3e
FP8 dense 7000 TFLOPS 9000 TFLOPS ~10500 TFLOPS
FP4 dense 14000 TFLOPS 18000 TFLOPS ~21000 TFLOPS
互联 NVLink 5(1.8 TB/s) NVLink 5 NVLink 5
TDP 700W 1000W ~1400W
形态 SXM (HGX) SXM (HGX) SXM (HGX/NVL)
用途 风冷 retrofit 主流 HGX 长上下文 / 大模型推理

注:throughput 单位 TFLOPS,dense;Blackwell 支持 2:4 structured sparsity,sparse 吞吐再 ×2。B300 / GB300 精确 TDP 与 HBM BW 待 NVIDIA 完整 datasheet 公开。

关键贡献

  • 双 die 设计:第一颗”chiplet GPU”——跨 die L2 一致性由 NV-HBI 维护,对 CUDA 程序透明(单 GPU UUID、单 PCI BDF)
  • FP4 / FP6(MX 格式):Tensor Core 第一次支持 4-bit / 6-bit 浮点,per-block micro-scaling(每 32 元素一个 E8M0 共享 scale),遵循 OCP MX 标准
  • Transformer Engine v2:自动 cast + scale tracking,对接 Megatron-Core / NeMo / TensorRT-LLM
  • 5th gen NVLink:单链路 100 GB/s 双向 × 18 link = 单卡 1.8 TB/s
  • 5th gen NVSwitch:72 端口 × 100 GB/s,NVL72 中构成 72 GPU 单一 NVLink 域
  • Decompression Engine:硬件加速 Snappy / Deflate / LZ4,针对数据分析与 RAG ingest
  • RAS Engine:自检测、预测性故障转移
  • Confidential Computing 扩展:从 single-GPU 扩展到 multi-GPU NVLink TEE,整个 NVL72 可作为单一 TEE 域

B200 单卡功耗 1000W,液冷成了标配——风冷扛不住。B100 是为存量风冷数据中心保留的 SKU,性能档次低于 B200。

GB200 / GB300(Grace + Blackwell Superchip)

把 1 颗 Grace CPU 配 2 颗 Blackwell GPU 用 NVLink-C2C 900 GB/s 串起来:

1
2
3
4
5
6
7
8
GB200 Superchip:
1× Grace (72 Neoverse V2 + ~480 GB LPDDR5X)
+ 2× B200 (192 GB HBM3e × 2 = 384 GB)
通过 NVLink-C2C 900 GB/s CPU↔GPU 直连(≈ 7× PCIe Gen5)

Total per Superchip:
72 ARM 核 + 480 GB LPDDR5X + 384 GB HBM3e
Tensor FP4 ≈ 36 PFLOPS dense / Superchip

GB300 把 GPU 换成 B300:1× Grace + 2× B300 = 576 GB HBM3e / Superchip,FP4 ≈ 42 PFLOPS dense。

NVLink-C2C 让 CPU 内存对 GPU 几乎是”近线 HBM 扩展”——Unified Memory 真正可用、KV cache / embedding table 可放 CPU 内存。

NVL72 整机柜 = 18 计算 tray × 2 GB200 superchip / tray = 36 superchip = 72 GPU + 36 Grace + 13.5 TB HBM3e + ~17 TB LPDDR5X。下一篇专题讲。

Vera Rubin(2026-2027)

NVIDIA 在 GTC 2024 / 2025 公布的下一代——但截至发布前,公开 keynote 之外的细节均属推断,正式规格须以 NVIDIA 后续 datasheet 为准。

Rubin
命名来源 Vera Rubin(暗物质科学家)
GPU Rubin(继承双 die / 多 die 通过 NV-HBI 拼接)
CPU Vera(取代 Grace,NVIDIA 自研 Olympus core,仍 Arm Neoverse 路线)
显存 HBM4,带宽 ~1.5–2× HBM3e
互联 NVLink 6(带宽 ≥ 1.8 TB/s 量级)
Superchip VR200 = 1× Vera CPU + 2× Rubin GPU
整机柜 NVL144(标准版)/ NVL576(Kyber rack)

待补充:Rubin 量产时间、HBM4 容量与带宽、FP4 算力、NVL576 详细 BOM——以 NVIDIA 正式发布为准。

Rubin Ultra / Kyber rack:目标 NVL576 = 576 GPU 在单一 NVLink 域,单机柜功率显著高于 GB200/GB300 NVL72(>500 kW 量级,需 800V HVDC 数据中心标准)。NVIDIA 推动 800V HVDC 与 OCP / 多家 OEM 合作,取消多层 AC↔DC 转换,效率↑、铜量↓。

NVIDIA 路线图 cadence 已从”两年一代”加速到 “一年一代 + 中期 refresh”。

为什么”一代翻一倍”做得到

每代算力翻倍主要来自三个地方:

graph LR
  M1[制程升级
16nm→7nm→4N] --> P[功率墙下塞更多晶体管] M2[精度变低
FP32→FP16→FP8→FP4] --> P M3[Tensor Core 重新设计
稀疏/结构化加速] --> P P[算力翻倍]

精度降低是大头:

1
2
3
4
5
6
A100 FP32:        19.5  TFLOPS
A100 BF16 Tensor: 312 TFLOPS dense (16x)
H100 BF16 Tensor: 1979 TFLOPS dense (6.3x vs A100)
H100 FP8 Tensor: 3958 TFLOPS dense (2x)
B200 FP8 Tensor: 9000 TFLOPS dense (2.3x vs H100 FP8)
B200 FP4 Tensor: 18000 TFLOPS dense (2x vs FP8)

但 FP4 不是免费的——只有大模型推理 + 适当 calibration 才能用。训练用 FP8/BF16,推理才大胆 FP4。

单卡功耗的代价

1
2
3
4
5
6
P100 (2016):  300W
V100 (2017): 300-450W
A100 (2020): 400W
H100 (2022): 700W
B200 (2024): 1000W
Rubin (2026):1200W+ (推测)

每代单卡功耗几乎翻倍——这是为什么数据中心 IT 单机柜功耗从 5kW 涨到 130kW(NVL72)的根因。散热和供电的”基础设施”压力比芯片本身更难解决

NVIDIA 的护城河不只是 GPU

graph TB
  HW[GPU 硬件
Tensor Core + HBM] CONN[NVLink + NVSwitch
多卡互联] CUDA[CUDA + cuBLAS + cuDNN] FRAME[PyTorch / JAX / TF
默认 NVIDIA 后端] TRT[TensorRT-LLM / Triton
推理引擎] NEMO[NeMo / NIM / DGX Cloud
软件栈和云服务] HW --> CONN --> CUDA --> FRAME --> TRT --> NEMO

任何一家想”取代 NVIDIA”的厂家,不只要做出能打的芯片,还要复制这整条 stack——这是为什么 AMD MI300、华为昇腾、各家国产 AI 芯片在硬件上单卡指标接近,但生态远远没追上。

一些查询命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 看 GPU 信息
nvidia-smi
nvidia-smi -L # 列出所有 GPU
nvidia-smi -q # 详细查询
nvidia-smi topo -m # 查看 NVLink 拓扑

# 持续监控
nvidia-smi dmon # 利用率、显存、温度、功耗
nvidia-smi pmon # 进程视角

# CUDA 信息
nvcc --version
nvidia-smi --query-gpu=name,driver_version,memory.total --format=csv

# 看 PCIe 链路状态
sudo lspci -vvv -s <BDF> | grep LnkSta

一张代次速查(数据中心 SXM 旗舰,dense throughput)

代次 量产 制程 BF16 Tensor (dense, TFLOPS) FP8 Tensor (dense, TFLOPS) FP4 Tensor (dense, TFLOPS) 单卡显存 TDP
P100 2016 16nm 16 GB HBM2 300W
V100 2017 12nm — (FP16: 125) 16/32 GB HBM2 300-450W
A100 2020 7nm 312 40/80 GB HBM2e 400W
H100 2022 4N 1979 3958 80 GB HBM3 700W
H200 2024 4N 1979 3958 141 GB HBM3e 700W
H20 2024 4N 148 296 96 GB HBM3 700W
B100 2024 4NP ~1800 7000 14000 192 GB HBM3e 700W
B200 2025 4NP 2250 9000 18000 192 GB HBM3e 1000W
B300 2025-2026 4NP ~2625 ~10500 ~21000 288 GB HBM3e ~1400W
Rubin 2026-2027 待补 待补 待补 待补 HBM4 待补

注:H100/H200 数字基于 NVIDIA 官方 SXM5 datasheet;B300 / Rubin 待 NVIDIA 完整 datasheet 公开。Sparse 2:4 ×2。

小结

  • NVIDIA 数据中心 GPU 一代两年(近年加速到一年)
  • V100 引入 Tensor Core,A100 引入 BF16/TF32 + MIG,H100 引入 FP8 + Transformer Engine
  • B200 是双 die chiplet + FP4 + 整机柜 NVLink,单卡 1000W
  • 算力翻倍来源:制程 + 降精度 + Tensor Core 重设计
  • 真正的护城河是 CUDA + 互联 + 框架支持的整条软件栈

下一篇讲 NVLink / NVSwitch / NVL72——多卡之间怎么连成”一颗大 GPU”。