GPU 选型实战与第五章小结

第五章前面 8 篇分别讲了 GPU 历史、NVIDIA 路线、NVL72、AMD MI、Intel/TPU/其他、国产 AI 芯片、训练 vs 推理、集群网络。本篇收口。

选 GPU 的”五层决策”

graph TD
  Q1[第 1 层: 训练 还是 推理?]
  Q1 --> Q2[第 2 层: 模型规模?]
  Q2 --> Q3[第 3 层: 集群规模?]
  Q3 --> Q4[第 4 层: 国产化要求?]
  Q4 --> Q5[第 5 层: 预算 / TCO?]
  Q5 --> A[最终选型]

第 1 层：训练 vs 推理

训练：吃算力 + 集群带宽
  → NVIDIA H100/B200 + IB / NVL72
  → AMD MI300 在试点
  → TPU 在 GCP 内部
  → 国产唯有华为 Atlas 万卡级方案

推理：吃显存 + HBM 带宽
  → 显存大的卡占优（H200 / MI300X / MI325X）
  → FP8/FP4 算力代次新的占优
  → 单延迟极致：Groq Cloud

第 2 层：模型规模

按要服务的模型选硬件：

模型规模	推理推荐	训练推荐
7B (Mistral 7B)	单卡 RTX 4090 / L40S	A100 / H100
13B-34B	单卡 H100 80GB	H100 集群
70B (Llama 70B)	MI300X / H200 单卡	千卡集群
100B+ MoE (Mixtral 8x22B)	多卡 MI300X / H200	千卡集群
175B (GPT-3)	多卡 H200 / B200	万卡集群
670B MoE (DeepSeek-V3)	NVL72 / 多 MI300X	万卡集群
GPT-4 量级	NVL72 + 整集群	NVL576 / 数万卡

第 3 层：集群规模

graph TD
  N1[1-8 卡
开发 / 实验] --> S1[H100/H200/MI300X 单机]
  N2[8-128 卡
中等训练 / 推理服务] --> S2[HGX H100 × N + 100/400G IB]
  N3[128-1000 卡
大模型微调 / 推理大集群] --> S3[NVL72 × 几柜 + IB 400G]
  N4[1K-10K 卡
大模型训练] --> S4[NVL72 × N + 全 Rail-Optimized IB]
  N5[10K+ 卡
GPT-4 量级训练] --> S5[整数据中心专用 + 自有电力]

万卡级集群（xAI Colossus / Meta 24K / Microsoft）已经不是”买 GPU”的问题，而是整个数据中心的设计。

第 4 层：国产化要求

强国产化要求（政企/央国/部分金融）：
  推理：     华为昇腾 910B（首选）
  训练：     华为 Atlas 900（万卡级唯一选择）
  
中等国产化要求（国企互联网）：
  推理：     昇腾 / 沐曦 / 摩尔线程 / 燧原 混搭
  训练：     仍以 NVIDIA 为主，部分国产试点
  
低国产化要求（互联网）：
  推理：     NVIDIA H200 / AMD MI300X
  训练：     NVIDIA H100 / B200

第 5 层：预算 / TCO

单卡价格（2026 年灰色市场行情，仅供参考）：
  NVIDIA H100 SXM5：    $30K-40K
  NVIDIA H200 SXM5：    $35K-45K
  NVIDIA B200 SXM5：    $50K-70K
  AMD MI300X：         $25K-35K
  AMD MI325X：         $35K-45K
  华为昇腾 910B：       ¥150K-200K (国内)
  Intel Gaudi 3：       $20K-30K (公开 ~便宜 30%)

整机柜（NVL72）：    约 $3-4M / 柜
万卡 H100 集群：    约 $5-6 亿美元（GPU + 网络 + 整机）

待补充：实际项目预算和采购报价。

几个典型场景的清单

场景 1：互联网大厂训练 GPT-4 量级

GPU：             10万 × NVIDIA H100/B200
拓扑：            NVL72 × 1500 柜
网络：            InfiniBand NDR 400G
存储：            集群级 50PB+ Lustre/WekaFS
功率：            150-200 MW
建设周期：        18-24 月
预算：            $50 亿美元 +
代表案例：        xAI Colossus、OpenAI、Microsoft、Meta

场景 2：国央企政企 AI 平台

GPU：             1000-5000 × 华为昇腾 910B
拓扑：            华为 Atlas 800 / 900
网络：            鹊信 / RoCE
存储：            华为 OceanStor 分布式
建设周期：        6-12 月
预算：            ¥几亿到几十亿
应用：            行业大模型训练 + 推理
代表案例：        电信运营商 / 国家电网 / 银行

场景 3：中小公司大模型推理 SaaS

GPU：             10-100 × MI300X / H200
拓扑：            8 卡服务器 × N
网络：            100G 以太网（推理不需要 IB）
存储：            本地 NVMe + 对象存储
建设周期：        1-3 月
预算：            $50万-1000万
应用：            7B-70B 推理服务
代表案例：        各类 AI 创业公司

场景 4：高校 / 科研机构

GPU：             一般 8-32 × A100 / H100
预算：            ¥1000万-1亿
应用：            学术研究 / 论文复现 / 教学
注：              A100 仍然是性价比之王（二手市场量大）

几个常见的”GPU 坑”

坑 1：拿消费 GPU 跑生产推理

RTX 4090 24GB：
  - 不支持 NVLink（4090 取消了）
  - 显存 24G，70B FP16 装不下
  - PCIe 4.0，多卡通信慢
  - 公司用 4090 跑生产合规上有问题
  
不是说不能用，只是踩坑率高。

坑 2：买 GPU 不买配套

错误：买了 8 张 H100 但用普通服务器主板
  → PCIe 通道不够，性能减半
  → 没 NVLink 桥接，多卡通信走 PCIe
  → 没 IB 网卡，跨节点训练崩

正确：买 HGX H100 / DGX H100 整机
  → GPU + NVSwitch + 网卡都齐全
  → 已经验证可用

坑 3：训练用国产 + 推理用 NVIDIA 混搭

训练完的模型放推理时要"重新调优算子"
  → AMD/华为/NVIDIA 算子精度差异
  → 输出 token 完全可能不一样
  → 推理质量下降需要重做评估

坑 4：忽视液冷的预算

H100 SXM5 700W → 8卡 5.6 kW + 整机柜 12-15 kW
B200 SXM5 1000W → 8卡 8 kW + 整机柜 15-20 kW
NVL72 单柜 130 kW

如果数据中心是风冷的，根本上不了 NVL72
液冷改造预算占总预算 10-20%

坑 5：低估网络预算

万卡训练集群网络成本约占总预算 15-20%：
  - IB 400G 网卡：每张约 $3K
  - QM9700 NDR 64-port 交换机：每台约 $50K
  - 光模块 + 线缆：每端口 $500-1000
  - 一万卡集群网络部分：$5000万+

坑 6：FP8/FP4 不是免费午餐

B200 FP4 算力是 H100 FP8 的 4.5×
但 FP4 训练不能直接用——精度损失大
推理也要 calibration
PyTorch / vLLM / TensorRT-LLM 都要支持

坑 7：MFU 远低于”理论”

H100 BF16 峰值 1 PFLOPS，但训练 Llama 70B 的 MFU：
  - 朴素 PyTorch：15-25%
  - 官方优化：30-40%
  - SOTA：50-55%

意味着你买的"1 PFLOPS"，实际只能用 0.3-0.5 PFLOPS
要把这 50% 损失算进 TCO

一张终极速查

业务	第 1 优先	第 2 选择	国产替代
大模型训练万卡	NVIDIA NVL72	-	华为 Atlas 900
大模型训练千卡	NVIDIA HGX H100	AMD MI300X	华为 Atlas
大模型推理 70B+	AMD MI300X / H200	B200	昇腾 910B
大模型推理 13B	H100 / L40S	A100	沐曦 / 摩尔线程
MoE 推理	MI300X / MI325X	H200 / B200	昇腾
推理超低延迟	Groq Cloud	-	-
端侧推理	NVIDIA Jetson	-	各家 NPU
个人开发	RTX 4090 / 5090	-	摩尔线程 S80
高校科研	A100（二手）/ H100	-	国产试点

第五章整体小结

回看第五章覆盖：

GPU 历史 — 从图形流水线到 CUDA、SIMT、Tensor Core
NVIDIA 数据中心 GPU 路线 — V100→A100→H100→B200→Rubin
NVLink / NVSwitch / NVL72 — 多卡变成”一颗大 GPU”
AMD Instinct — MI100 → MI300X → MI400，ROCm 生态
Intel Gaudi / TPU / 其他加速器 — 非 GPU 路线的多种探索
国产 AI 芯片 — 昇腾、寒武纪、摩尔线程、燧原、壁仞、海光
训练 vs 推理 — 硬件视角的根本差异
AI 集群网络 — InfiniBand、RoCE、Rail-Optimized
GPU 选型与小结（本篇）

几条贯穿全章的主线：

graph LR
  HW[GPU 硬件
Tensor Core + HBM]
  CONN[NVLink + NVSwitch
+ NVL72]
  NET[InfiniBand / RoCE
scale-out]
  SW[CUDA + cuDNN + NCCL
软件栈]
  FW[PyTorch / JAX
框架]
  APP[大模型训练 + 推理]
  HW --> CONN --> NET --> SW --> FW --> APP

核心认知：

AI 算力的护城河是整套基础设施，不只是芯片
NVIDIA 在硬件 + 软件 + 网卡 + 整机的”垂直整合”是真正的优势
单卡指标接近的国产芯片，离整套替代仍有 2-3 年距离
训练 vs 推理对硬件的诉求完全不同——选型不能一概而论

AI 算力未来 2-3 年的趋势

1. NVIDIA Rubin 加速一代/年
2. AMD MI400 / Intel 整合后下一代
3. 万卡集群成为大公司"标配"
4. NVLink Switch 系统普及（NVL576 等）
5. UALink 在 AMD/Intel 集群落地（NVLink 替代尝试）
6. CXL 在 AI 上的实验（远端显存池）
7. 推理硬件多元化（Groq / Cerebras / SambaNova 各占一块）
8. 国产 HBM3 量产（CXMT），昇腾 910C/910D 上量
9. FP4 / FP6 推理标准化
10. 液冷成为新建数据中心默认

几个”AI 时代特有”的硬件思维

1. 不要看"单卡纸面参数"，看"集群有效算力"
2. 不要看"FP32 算力"，看"BF16/FP8/FP4 算力"
3. 不要忽视 HBM 容量和带宽
4. 不要忽视 NVLink / NVSwitch 域大小
5. 不要忽视液冷和电力的预算
6. 不要忽视软件栈成熟度（特别是国产芯片）
7. 不要忽视集群运维难度（万卡级故障日常）

给读者的实战建议

如果你在公司负责 AI 算力规划：

1. 先搞清楚"训练 还是 推理"是主导
2. 调研团队的模型规模和未来 1-2 年规划
3. 明确国产化要求等级
4. 算 TCO 而非单卡价格
5. 留出液冷和电力改造预算
6. 网络和存储不要省（占 25-30% 总预算）
7. 软件栈培训和团队建设是隐藏成本
8. 留出 20-30% 容量做"未来扩展"

待补充：你公司或项目内的实际 GPU 选型决策过程我来写。

第五章结束

下一章进入第六章网卡和数据中心网络。已经在本章 5.8 提到很多——下一章会展开：

网卡的演进（千兆 / 万兆 / 25G / 100G / 400G / 800G）
智能网卡（DPU）和 BlueField
InfiniBand vs Ethernet vs RoCE 的全面对比
Spine-Leaf 拓扑和 Fat-Tree
数据中心交换机（白盒 vs 品牌）
时延和拥塞控制（PFC、ECN、DCQCN）
国产网络芯片（中际旭创、华为光模块、新华三、锐捷）
Telemetry / OAM / SONiC

Chapter 5 done.

05-GPU与AI

#GPU 选型 #第五章小结

网卡演进 —— 从千兆到 800G 上一篇

AI 集群网络 —— InfiniBand、RoCE 与万卡训练下一篇