NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin

NVIDIA 每两年一代数据中心 GPU。从 2017 年 V100 起，每一代都不是”性能加 30%”——是把整个 AI 行业往新方向推一次。本文按代次梳理。

一张时间轴

graph LR
  P100[2016
P100
Pascal] --> V100[2017
V100
Volta]
  V100 --> A100[2020
A100
Ampere]
  A100 --> H100[2022
H100
Hopper]
  H100 --> H200[2024
H200
Hopper Refresh]
  H200 --> B200[2024-2025
B100/B200
Blackwell]
  B200 --> RUBIN[2026-2027
Vera Rubin
Rubin]

NVIDIA 的代次按”知名科学家”命名——Pascal、Volta、Turing、Ampere、Hopper、Blackwell、Rubin。下一代 Rubin 已公布，再下一代 Feynman 待补充。

P100（2016，Pascal）


制程	TSMC 16nm
显存	16 GB HBM2，720 GB/s
FP64 / FP32 / FP16	5.3 / 10.6 / 21.2 TFLOPS
Tensor Core	无
互联	NVLink 1.0（160 GB/s 双向）
TDP	300W
封装	SXM2

关键贡献：

首次引入 NVLink，多卡互联从 PCIe 解放
首次大规模用 HBM2
DGX-1（8 卡）开始

P100 的算力今天看起来很小，但当时 ResNet 训练用 P100 是主流。

V100（2017，Volta）—— Tensor Core 的开端


制程	TSMC 12nm
显存	16/32 GB HBM2，900 GB/s
FP64 / FP32 / FP16	7.5 / 15 / 30 TFLOPS
Tensor Core FP16	125 TFLOPS
互联	NVLink 2.0（300 GB/s）
TDP	300-450W
封装	SXM2

关键贡献：

Tensor Core：首次出现的”4×4 矩阵乘加”专用单元，让 FP16 运算飙到 8 倍 FP32 速度
引入 NVSwitch（V100 32GB 配套）
DGX-2（16 卡，2× NVSwitch 完全互联）

Tensor Core 是后续 6 代 GPU 的灵魂——大模型时代算力的真正核心。

A100（2020，Ampere）


制程	TSMC 7nm
显存	40/80 GB HBM2e，1555-2039 GB/s
FP64 / FP32	9.7 / 19.5 TFLOPS
Tensor Core FP16	312 TFLOPS（稀疏 624）
Tensor Core BF16/TF32	312 / 156 TFLOPS
互联	NVLink 3.0（600 GB/s）
TDP	400-500W
封装	SXM4 / PCIe

关键贡献：

BF16 / TF32：精度新选项，BF16 范围像 FP32 但只占 16 bit，训练稳定性大幅提升
稀疏计算：2:4 结构稀疏让 Tensor Core 翻倍
MIG（Multi-Instance GPU）：一颗 A100 切成 7 个独立小 GPU，多租户友好
NVLink Switch：8 卡 GPU 互联（DGX A100）

A100 是过去 5 年 AI 训练的”主力员工”——很多企业当前生产中仍在大量使用。

H100（2022，Hopper）—— FP8 引爆大模型


制程	TSMC 4N（4nm 定制）
显存	80 GB HBM3，3.35 TB/s
FP64 / FP32	67 / 67 TFLOPS（FP64 用 Tensor Core 后增强）
Tensor Core FP16/BF16	1979 TFLOPS dense（稀疏 2:4 ×2）
Tensor Core FP8	3958 TFLOPS dense（稀疏 7916）
互联	NVLink 4.0（900 GB/s 双向）
TDP	700W
封装	SXM5 / PCIe
SM	132（SXM5）/ 114（PCIe）

注：throughput 为 dense；sparse 2:4 ×2。

关键贡献：

FP8（E4M3 / E5M2）：精度再降一半，Tensor Core 能力翻倍。配合 Transformer Engine 自动管理精度
TMA（Tensor Memory Accelerator）：异步 tensor 搬运，single thread 发起、硬件后台完成；FlashAttention-3 / CUTLASS Hopper / cuBLAS Hopper kernel 关键依赖
Thread Block Cluster：grid → cluster → block → thread 多级调度，cluster 内通过 SM-to-SM 网络共享 shared memory（DSMEM）
DPX 指令：动态规划加速（基因组学、路径规划）
4th gen NVLink（900 GB/s）+ 3rd gen NVSwitch + NVLink Network Mode（DGX H100 SuperPOD 跨节点 256 GPU 域）
HBM3 第一次量产应用
Confidential Computing：单 GPU TEE（基于 SEV-SNP / TDX）

H100 是 ChatGPT 时代的”硬通货”。2023-2024 年北美 AI 公司抢 H100 卡的故事成了行业典故。

Hopper 家族其他 SKU

SKU	形态	显存	NVLink	FP8 dense	备注
H100 SXM5	SXM5	80 GB HBM3	900 GB/s	3958	HGX H100 主力
H100 PCIe	PCIe Gen5	80 GB HBM3	600 GB/s（NVL bridge）	3026	单卡 / 工作站
H100 NVL	2×PCIe 桥接	188 GB HBM3（94×2）	NVLink bridge	7916	LLM 推理优化
H20	SXM5	96 GB HBM3	900 GB/s	296	中国出口合规 SKU

H20 是 2023 年美国出口管制后 NVIDIA 给中国市场的特供 —— 算力被砍到 H100 的不到 10%，但保留 96 GB HBM3 + 4 TB/s 带宽 + 完整 NVLink 4，推理友好但训练受限。

Transformer Engine

H100 的”杀手锏”——硬件 + 软件协同：

训练时一层一层观察激活分布
  → 自动选 FP8 / BF16 / FP16 哪个最合适
  → 用 per-tensor scale 校准
  → 防止溢出 / 下溢
  → 不损失精度的前提下用 FP8 跑训练

效果：Llama 70B 从 BF16 切到 FP8 训练，速度翻倍，最终精度不掉。

H200（2024，Hopper Refresh）


同 H100	算力一致
显存	141 GB HBM3e，4.8 TB/s
TDP	700W

关键贡献：

显存从 80 GB → 141 GB，对大模型推理 KV-Cache 至关重要
HBM3e 第一次商用
是 H100 的”中期改款”——架构没变，主要靠 HBM3e 升级

H200 在推理市场（Llama-2 70B、GPT-4 推理）非常受欢迎，因为大显存就是”装得下”。

B100 / B200 / B300（2024-2025，Blackwell）

Blackwell 是 Hopper 的继任架构，2024 GTC 公布。核心设计要点：双 die 单封装（两颗 reticle-limit die 通过 NV-HBI 10 TB/s 互联，对软件呈现为单一 CUDA device、单一 NVLink endpoint）+ 第二代 Transformer Engine（原生 FP4/FP6，配合 OCP MX 标准的 per-block micro-scaling）+ 第五代 NVLink。

	B100	B200	B300
制程	TSMC 4NP	TSMC 4NP	TSMC 4NP
结构	双 die（NV-HBI 10 TB/s）	同	同
显存	192 GB HBM3e	192 GB HBM3e（8 TB/s）	288 GB HBM3e
FP8 dense	7000 TFLOPS	9000 TFLOPS	~10500 TFLOPS
FP4 dense	14000 TFLOPS	18000 TFLOPS	~21000 TFLOPS
互联	NVLink 5（1.8 TB/s）	NVLink 5	NVLink 5
TDP	700W	1000W	~1400W
形态	SXM (HGX)	SXM (HGX)	SXM (HGX/NVL)
用途	风冷 retrofit	主流 HGX	长上下文 / 大模型推理

注：throughput 单位 TFLOPS，dense；Blackwell 支持 2:4 structured sparsity，sparse 吞吐再 ×2。B300 / GB300 精确 TDP 与 HBM BW 待 NVIDIA 完整 datasheet 公开。

关键贡献：

双 die 设计：第一颗”chiplet GPU”——跨 die L2 一致性由 NV-HBI 维护，对 CUDA 程序透明（单 GPU UUID、单 PCI BDF）
FP4 / FP6（MX 格式）：Tensor Core 第一次支持 4-bit / 6-bit 浮点，per-block micro-scaling（每 32 元素一个 E8M0 共享 scale），遵循 OCP MX 标准
Transformer Engine v2：自动 cast + scale tracking，对接 Megatron-Core / NeMo / TensorRT-LLM
5th gen NVLink：单链路 100 GB/s 双向 × 18 link = 单卡 1.8 TB/s
5th gen NVSwitch：72 端口 × 100 GB/s，NVL72 中构成 72 GPU 单一 NVLink 域
Decompression Engine：硬件加速 Snappy / Deflate / LZ4，针对数据分析与 RAG ingest
RAS Engine：自检测、预测性故障转移
Confidential Computing 扩展：从 single-GPU 扩展到 multi-GPU NVLink TEE，整个 NVL72 可作为单一 TEE 域

B200 单卡功耗 1000W，液冷成了标配——风冷扛不住。B100 是为存量风冷数据中心保留的 SKU，性能档次低于 B200。

GB200 / GB300（Grace + Blackwell Superchip）

把 1 颗 Grace CPU 配 2 颗 Blackwell GPU 用 NVLink-C2C 900 GB/s 串起来：

GB200 Superchip：
  1× Grace (72 Neoverse V2 + ~480 GB LPDDR5X)
  + 2× B200 (192 GB HBM3e × 2 = 384 GB)
  通过 NVLink-C2C 900 GB/s CPU↔GPU 直连（≈ 7× PCIe Gen5）

Total per Superchip：
  72 ARM 核 + 480 GB LPDDR5X + 384 GB HBM3e
  Tensor FP4 ≈ 36 PFLOPS dense / Superchip

GB300 把 GPU 换成 B300：1× Grace + 2× B300 = 576 GB HBM3e / Superchip，FP4 ≈ 42 PFLOPS dense。

NVLink-C2C 让 CPU 内存对 GPU 几乎是”近线 HBM 扩展”——Unified Memory 真正可用、KV cache / embedding table 可放 CPU 内存。

NVL72 整机柜 = 18 计算 tray × 2 GB200 superchip / tray = 36 superchip = 72 GPU + 36 Grace + 13.5 TB HBM3e + ~17 TB LPDDR5X。下一篇专题讲。

Vera Rubin（2026-2027）

NVIDIA 在 GTC 2024 / 2025 公布的下一代——但截至发布前，公开 keynote 之外的细节均属推断，正式规格须以 NVIDIA 后续 datasheet 为准。

	Rubin
命名来源	Vera Rubin（暗物质科学家）
GPU	Rubin（继承双 die / 多 die 通过 NV-HBI 拼接）
CPU	Vera（取代 Grace，NVIDIA 自研 Olympus core，仍 Arm Neoverse 路线）
显存	HBM4，带宽 ~1.5–2× HBM3e
互联	NVLink 6（带宽 ≥ 1.8 TB/s 量级）
Superchip	VR200 = 1× Vera CPU + 2× Rubin GPU
整机柜	NVL144（标准版）/ NVL576（Kyber rack）

待补充：Rubin 量产时间、HBM4 容量与带宽、FP4 算力、NVL576 详细 BOM——以 NVIDIA 正式发布为准。

Rubin Ultra / Kyber rack：目标 NVL576 = 576 GPU 在单一 NVLink 域，单机柜功率显著高于 GB200/GB300 NVL72（>500 kW 量级，需 800V HVDC 数据中心标准）。NVIDIA 推动 800V HVDC 与 OCP / 多家 OEM 合作，取消多层 AC↔DC 转换，效率↑、铜量↓。

NVIDIA 路线图 cadence 已从”两年一代”加速到 “一年一代 + 中期 refresh”。

为什么”一代翻一倍”做得到

每代算力翻倍主要来自三个地方：

graph LR
  M1[制程升级
16nm→7nm→4N] --> P[功率墙下塞更多晶体管]
  M2[精度变低
FP32→FP16→FP8→FP4] --> P
  M3[Tensor Core 重新设计
稀疏/结构化加速] --> P
  P[算力翻倍]

精度降低是大头：

A100 FP32:        19.5  TFLOPS
A100 BF16 Tensor: 312   TFLOPS dense    (16x)
H100 BF16 Tensor: 1979  TFLOPS dense    (6.3x vs A100)
H100 FP8  Tensor: 3958  TFLOPS dense    (2x)
B200 FP8  Tensor: 9000  TFLOPS dense    (2.3x vs H100 FP8)
B200 FP4  Tensor: 18000 TFLOPS dense    (2x vs FP8)

但 FP4 不是免费的——只有大模型推理 + 适当 calibration 才能用。训练用 FP8/BF16，推理才大胆 FP4。

单卡功耗的代价

P100 (2016)：  300W
V100 (2017)：  300-450W
A100 (2020)：  400W
H100 (2022)：  700W
B200 (2024)：  1000W
Rubin (2026)：1200W+ (推测)

每代单卡功耗几乎翻倍——这是为什么数据中心 IT 单机柜功耗从 5kW 涨到 130kW（NVL72）的根因。散热和供电的”基础设施”压力比芯片本身更难解决。

NVIDIA 的护城河不只是 GPU

graph TB
  HW[GPU 硬件
Tensor Core + HBM]
  CONN[NVLink + NVSwitch
多卡互联]
  CUDA[CUDA + cuBLAS + cuDNN]
  FRAME[PyTorch / JAX / TF
默认 NVIDIA 后端]
  TRT[TensorRT-LLM / Triton
推理引擎]
  NEMO[NeMo / NIM / DGX Cloud
软件栈和云服务]
  HW --> CONN --> CUDA --> FRAME --> TRT --> NEMO

任何一家想”取代 NVIDIA”的厂家，不只要做出能打的芯片，还要复制这整条 stack——这是为什么 AMD MI300、华为昇腾、各家国产 AI 芯片在硬件上单卡指标接近，但生态远远没追上。

一些查询命令

# 看 GPU 信息
nvidia-smi
nvidia-smi -L                  # 列出所有 GPU
nvidia-smi -q                  # 详细查询
nvidia-smi topo -m             # 查看 NVLink 拓扑

# 持续监控
nvidia-smi dmon                # 利用率、显存、温度、功耗
nvidia-smi pmon                # 进程视角

# CUDA 信息
nvcc --version
nvidia-smi --query-gpu=name,driver_version,memory.total --format=csv

# 看 PCIe 链路状态
sudo lspci -vvv -s <BDF> | grep LnkSta

一张代次速查（数据中心 SXM 旗舰，dense throughput）

代次	量产	制程	BF16 Tensor (dense, TFLOPS)	FP8 Tensor (dense, TFLOPS)	FP4 Tensor (dense, TFLOPS)	单卡显存	TDP
P100	2016	16nm	—	—	—	16 GB HBM2	300W
V100	2017	12nm	— (FP16: 125)	—	—	16/32 GB HBM2	300-450W
A100	2020	7nm	312	—	—	40/80 GB HBM2e	400W
H100	2022	4N	1979	3958	—	80 GB HBM3	700W
H200	2024	4N	1979	3958	—	141 GB HBM3e	700W
H20	2024	4N	148	296	—	96 GB HBM3	700W
B100	2024	4NP	~1800	7000	14000	192 GB HBM3e	700W
B200	2025	4NP	2250	9000	18000	192 GB HBM3e	1000W
B300	2025-2026	4NP	~2625	~10500	~21000	288 GB HBM3e	~1400W
Rubin	2026-2027	待补	待补	待补	待补	HBM4	待补

注：H100/H200 数字基于 NVIDIA 官方 SXM5 datasheet；B300 / Rubin 待 NVIDIA 完整 datasheet 公开。Sparse 2:4 ×2。

小结

NVIDIA 数据中心 GPU 一代两年（近年加速到一年）
V100 引入 Tensor Core，A100 引入 BF16/TF32 + MIG，H100 引入 FP8 + Transformer Engine
B200 是双 die chiplet + FP4 + 整机柜 NVLink，单卡 1000W
算力翻倍来源：制程 + 降精度 + Tensor Core 重设计
真正的护城河是 CUDA + 互联 + 框架支持的整条软件栈

下一篇讲 NVLink / NVSwitch / NVL72——多卡之间怎么连成”一颗大 GPU”。

05-GPU与AI

#NVIDIA #H100 #B200 #Tensor Core

NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU" 上一篇

GPU 历史 —— 从图形到通用计算下一篇