GPU 选型实战与第五章小结

第五章前面 8 篇分别讲了 GPU 历史、NVIDIA 路线、NVL72、AMD MI、Intel/TPU/其他、国产 AI 芯片、训练 vs 推理、集群网络。本篇收口。

选 GPU 的”五层决策”

graph TD
  Q1[第 1 层: 训练 还是 推理?]
  Q1 --> Q2[第 2 层: 模型规模?]
  Q2 --> Q3[第 3 层: 集群规模?]
  Q3 --> Q4[第 4 层: 国产化要求?]
  Q4 --> Q5[第 5 层: 预算 / TCO?]
  Q5 --> A[最终选型]

第 1 层:训练 vs 推理

1
2
3
4
5
6
7
8
9
10
训练:吃算力 + 集群带宽
→ NVIDIA H100/B200 + IB / NVL72
→ AMD MI300 在试点
→ TPU 在 GCP 内部
→ 国产唯有华为 Atlas 万卡级方案

推理:吃显存 + HBM 带宽
→ 显存大的卡占优(H200 / MI300X / MI325X)
→ FP8/FP4 算力代次新的占优
→ 单延迟极致:Groq Cloud

第 2 层:模型规模

按要服务的模型选硬件:

模型规模 推理推荐 训练推荐
7B (Mistral 7B) 单卡 RTX 4090 / L40S A100 / H100
13B-34B 单卡 H100 80GB H100 集群
70B (Llama 70B) MI300X / H200 单卡 千卡集群
100B+ MoE (Mixtral 8x22B) 多卡 MI300X / H200 千卡集群
175B (GPT-3) 多卡 H200 / B200 万卡集群
670B MoE (DeepSeek-V3) NVL72 / 多 MI300X 万卡集群
GPT-4 量级 NVL72 + 整集群 NVL576 / 数万卡

第 3 层:集群规模

graph TD
  N1[1-8 卡
开发 / 实验] --> S1[H100/H200/MI300X 单机] N2[8-128 卡
中等训练 / 推理服务] --> S2[HGX H100 × N + 100/400G IB] N3[128-1000 卡
大模型微调 / 推理大集群] --> S3[NVL72 × 几柜 + IB 400G] N4[1K-10K 卡
大模型训练] --> S4[NVL72 × N + 全 Rail-Optimized IB] N5[10K+ 卡
GPT-4 量级训练] --> S5[整数据中心专用 + 自有电力]

万卡级集群(xAI Colossus / Meta 24K / Microsoft)已经不是”买 GPU”的问题,而是整个数据中心的设计

第 4 层:国产化要求

1
2
3
4
5
6
7
8
9
10
11
强国产化要求(政企/央国/部分金融):
推理: 华为昇腾 910B(首选)
训练: 华为 Atlas 900(万卡级唯一选择)

中等国产化要求(国企互联网):
推理: 昇腾 / 沐曦 / 摩尔线程 / 燧原 混搭
训练: 仍以 NVIDIA 为主,部分国产试点

低国产化要求(互联网):
推理: NVIDIA H200 / AMD MI300X
训练: NVIDIA H100 / B200

第 5 层:预算 / TCO

1
2
3
4
5
6
7
8
9
10
11
单卡价格(2026 年灰色市场行情,仅供参考):
NVIDIA H100 SXM5: $30K-40K
NVIDIA H200 SXM5: $35K-45K
NVIDIA B200 SXM5: $50K-70K
AMD MI300X: $25K-35K
AMD MI325X: $35K-45K
华为昇腾 910B: ¥150K-200K (国内)
Intel Gaudi 3: $20K-30K (公开 ~便宜 30%)

整机柜(NVL72): 约 $3-4M / 柜
万卡 H100 集群: 约 $5-6 亿美元(GPU + 网络 + 整机)

待补充:实际项目预算和采购报价。

几个典型场景的清单

场景 1:互联网大厂训练 GPT-4 量级

1
2
3
4
5
6
7
8
GPU:             10万 × NVIDIA H100/B200
拓扑: NVL72 × 1500 柜
网络: InfiniBand NDR 400G
存储: 集群级 50PB+ Lustre/WekaFS
功率: 150-200 MW
建设周期: 18-24 月
预算: $50 亿美元 +
代表案例: xAI Colossus、OpenAI、Microsoft、Meta

场景 2:国央企政企 AI 平台

1
2
3
4
5
6
7
8
GPU:             1000-5000 × 华为昇腾 910B
拓扑: 华为 Atlas 800 / 900
网络: 鹊信 / RoCE
存储: 华为 OceanStor 分布式
建设周期: 6-12 月
预算: ¥几亿到几十亿
应用: 行业大模型训练 + 推理
代表案例: 电信运营商 / 国家电网 / 银行

场景 3:中小公司大模型推理 SaaS

1
2
3
4
5
6
7
8
GPU:             10-100 × MI300X / H200
拓扑: 8 卡服务器 × N
网络: 100G 以太网(推理不需要 IB)
存储: 本地 NVMe + 对象存储
建设周期: 1-3 月
预算: $50万-1000万
应用: 7B-70B 推理服务
代表案例: 各类 AI 创业公司

场景 4:高校 / 科研机构

1
2
3
4
GPU:             一般 8-32 × A100 / H100
预算: ¥1000万-1亿
应用: 学术研究 / 论文复现 / 教学
注: A100 仍然是性价比之王(二手市场量大)

几个常见的”GPU 坑”

坑 1:拿消费 GPU 跑生产推理

1
2
3
4
5
6
7
RTX 4090 24GB:
- 不支持 NVLink(4090 取消了)
- 显存 24G,70B FP16 装不下
- PCIe 4.0,多卡通信慢
- 公司用 4090 跑生产合规上有问题

不是说不能用,只是踩坑率高。

坑 2:买 GPU 不买配套

1
2
3
4
5
6
7
8
错误:买了 8 张 H100 但用普通服务器主板
→ PCIe 通道不够,性能减半
→ 没 NVLink 桥接,多卡通信走 PCIe
→ 没 IB 网卡,跨节点训练崩

正确:买 HGX H100 / DGX H100 整机
→ GPU + NVSwitch + 网卡都齐全
→ 已经验证可用

坑 3:训练用国产 + 推理用 NVIDIA 混搭

1
2
3
4
训练完的模型放推理时要"重新调优算子"
→ AMD/华为/NVIDIA 算子精度差异
→ 输出 token 完全可能不一样
→ 推理质量下降需要重做评估

坑 4:忽视液冷的预算

1
2
3
4
5
6
H100 SXM5 700W → 8卡 5.6 kW + 整机柜 12-15 kW
B200 SXM5 1000W → 8卡 8 kW + 整机柜 15-20 kW
NVL72 单柜 130 kW

如果数据中心是风冷的,根本上不了 NVL72
液冷改造预算占总预算 10-20%

坑 5:低估网络预算

1
2
3
4
5
万卡训练集群网络成本约占总预算 15-20%:
- IB 400G 网卡:每张约 $3K
- QM9700 NDR 64-port 交换机:每台约 $50K
- 光模块 + 线缆:每端口 $500-1000
- 一万卡集群网络部分:$5000万+

坑 6:FP8/FP4 不是免费午餐

1
2
3
4
B200 FP4 算力是 H100 FP8 的 4.5×
但 FP4 训练不能直接用——精度损失大
推理也要 calibration
PyTorch / vLLM / TensorRT-LLM 都要支持

坑 7:MFU 远低于”理论”

1
2
3
4
5
6
7
H100 BF16 峰值 1 PFLOPS,但训练 Llama 70B 的 MFU:
- 朴素 PyTorch:15-25%
- 官方优化:30-40%
- SOTA:50-55%

意味着你买的"1 PFLOPS",实际只能用 0.3-0.5 PFLOPS
要把这 50% 损失算进 TCO

一张终极速查

业务 第 1 优先 第 2 选择 国产替代
大模型训练 万卡 NVIDIA NVL72 - 华为 Atlas 900
大模型训练 千卡 NVIDIA HGX H100 AMD MI300X 华为 Atlas
大模型推理 70B+ AMD MI300X / H200 B200 昇腾 910B
大模型推理 13B H100 / L40S A100 沐曦 / 摩尔线程
MoE 推理 MI300X / MI325X H200 / B200 昇腾
推理超低延迟 Groq Cloud - -
端侧推理 NVIDIA Jetson - 各家 NPU
个人开发 RTX 4090 / 5090 - 摩尔线程 S80
高校科研 A100(二手)/ H100 - 国产试点

第五章整体小结

回看第五章覆盖:

  1. GPU 历史 — 从图形流水线到 CUDA、SIMT、Tensor Core
  2. NVIDIA 数据中心 GPU 路线 — V100→A100→H100→B200→Rubin
  3. NVLink / NVSwitch / NVL72 — 多卡变成”一颗大 GPU”
  4. AMD Instinct — MI100 → MI300X → MI400,ROCm 生态
  5. Intel Gaudi / TPU / 其他加速器 — 非 GPU 路线的多种探索
  6. 国产 AI 芯片 — 昇腾、寒武纪、摩尔线程、燧原、壁仞、海光
  7. 训练 vs 推理 — 硬件视角的根本差异
  8. AI 集群网络 — InfiniBand、RoCE、Rail-Optimized
  9. GPU 选型与小结(本篇)

几条贯穿全章的主线:

graph LR
  HW[GPU 硬件
Tensor Core + HBM] CONN[NVLink + NVSwitch
+ NVL72] NET[InfiniBand / RoCE
scale-out] SW[CUDA + cuDNN + NCCL
软件栈] FW[PyTorch / JAX
框架] APP[大模型训练 + 推理] HW --> CONN --> NET --> SW --> FW --> APP

核心认知

  • AI 算力的护城河是整套基础设施,不只是芯片
  • NVIDIA 在硬件 + 软件 + 网卡 + 整机的”垂直整合”是真正的优势
  • 单卡指标接近的国产芯片,离整套替代仍有 2-3 年距离
  • 训练 vs 推理对硬件的诉求完全不同——选型不能一概而论

AI 算力未来 2-3 年的趋势

1
2
3
4
5
6
7
8
9
10
1. NVIDIA Rubin 加速一代/年
2. AMD MI400 / Intel 整合后下一代
3. 万卡集群成为大公司"标配"
4. NVLink Switch 系统普及(NVL576 等)
5. UALink 在 AMD/Intel 集群落地(NVLink 替代尝试)
6. CXL 在 AI 上的实验(远端显存池)
7. 推理硬件多元化(Groq / Cerebras / SambaNova 各占一块)
8. 国产 HBM3 量产(CXMT),昇腾 910C/910D 上量
9. FP4 / FP6 推理标准化
10. 液冷成为新建数据中心默认

几个”AI 时代特有”的硬件思维

1
2
3
4
5
6
7
1. 不要看"单卡纸面参数",看"集群有效算力"
2. 不要看"FP32 算力",看"BF16/FP8/FP4 算力"
3. 不要忽视 HBM 容量和带宽
4. 不要忽视 NVLink / NVSwitch 域大小
5. 不要忽视液冷和电力的预算
6. 不要忽视软件栈成熟度(特别是国产芯片)
7. 不要忽视集群运维难度(万卡级故障日常)

给读者的实战建议

如果你在公司负责 AI 算力规划:

1
2
3
4
5
6
7
8
1. 先搞清楚"训练 还是 推理"是主导
2. 调研团队的模型规模和未来 1-2 年规划
3. 明确国产化要求等级
4. 算 TCO 而非单卡价格
5. 留出液冷和电力改造预算
6. 网络和存储不要省(占 25-30% 总预算)
7. 软件栈培训和团队建设是隐藏成本
8. 留出 20-30% 容量做"未来扩展"

待补充:你公司或项目内的实际 GPU 选型决策过程我来写。

第五章结束

下一章进入第六章 网卡和数据中心网络。已经在本章 5.8 提到很多——下一章会展开:

  • 网卡的演进(千兆 / 万兆 / 25G / 100G / 400G / 800G)
  • 智能网卡(DPU)和 BlueField
  • InfiniBand vs Ethernet vs RoCE 的全面对比
  • Spine-Leaf 拓扑和 Fat-Tree
  • 数据中心交换机(白盒 vs 品牌)
  • 时延和拥塞控制(PFC、ECN、DCQCN)
  • 国产网络芯片(中际旭创、华为光模块、新华三、锐捷)
  • Telemetry / OAM / SONiC

Chapter 5 done.