第五章前面 8 篇分别讲了 GPU 历史、NVIDIA 路线、NVL72、AMD MI、Intel/TPU/其他、国产 AI 芯片、训练 vs 推理、集群网络。本篇收口。
选 GPU 的”五层决策”
graph TD
Q1[第 1 层: 训练 还是 推理?]
Q1 --> Q2[第 2 层: 模型规模?]
Q2 --> Q3[第 3 层: 集群规模?]
Q3 --> Q4[第 4 层: 国产化要求?]
Q4 --> Q5[第 5 层: 预算 / TCO?]
Q5 --> A[最终选型]
第 1 层:训练 vs 推理
1 2 3 4 5 6 7 8 9 10
| 训练:吃算力 + 集群带宽 → NVIDIA H100/B200 + IB / NVL72 → AMD MI300 在试点 → TPU 在 GCP 内部 → 国产唯有华为 Atlas 万卡级方案
推理:吃显存 + HBM 带宽 → 显存大的卡占优(H200 / MI300X / MI325X) → FP8/FP4 算力代次新的占优 → 单延迟极致:Groq Cloud
|
第 2 层:模型规模
按要服务的模型选硬件:
| 模型规模 |
推理推荐 |
训练推荐 |
| 7B (Mistral 7B) |
单卡 RTX 4090 / L40S |
A100 / H100 |
| 13B-34B |
单卡 H100 80GB |
H100 集群 |
| 70B (Llama 70B) |
MI300X / H200 单卡 |
千卡集群 |
| 100B+ MoE (Mixtral 8x22B) |
多卡 MI300X / H200 |
千卡集群 |
| 175B (GPT-3) |
多卡 H200 / B200 |
万卡集群 |
| 670B MoE (DeepSeek-V3) |
NVL72 / 多 MI300X |
万卡集群 |
| GPT-4 量级 |
NVL72 + 整集群 |
NVL576 / 数万卡 |
第 3 层:集群规模
graph TD
N1[1-8 卡
开发 / 实验] --> S1[H100/H200/MI300X 单机]
N2[8-128 卡
中等训练 / 推理服务] --> S2[HGX H100 × N + 100/400G IB]
N3[128-1000 卡
大模型微调 / 推理大集群] --> S3[NVL72 × 几柜 + IB 400G]
N4[1K-10K 卡
大模型训练] --> S4[NVL72 × N + 全 Rail-Optimized IB]
N5[10K+ 卡
GPT-4 量级训练] --> S5[整数据中心专用 + 自有电力]
万卡级集群(xAI Colossus / Meta 24K / Microsoft)已经不是”买 GPU”的问题,而是整个数据中心的设计。
第 4 层:国产化要求
1 2 3 4 5 6 7 8 9 10 11
| 强国产化要求(政企/央国/部分金融): 推理: 华为昇腾 910B(首选) 训练: 华为 Atlas 900(万卡级唯一选择) 中等国产化要求(国企互联网): 推理: 昇腾 / 沐曦 / 摩尔线程 / 燧原 混搭 训练: 仍以 NVIDIA 为主,部分国产试点 低国产化要求(互联网): 推理: NVIDIA H200 / AMD MI300X 训练: NVIDIA H100 / B200
|
第 5 层:预算 / TCO
1 2 3 4 5 6 7 8 9 10 11
| 单卡价格(2026 年灰色市场行情,仅供参考): NVIDIA H100 SXM5: $30K-40K NVIDIA H200 SXM5: $35K-45K NVIDIA B200 SXM5: $50K-70K AMD MI300X: $25K-35K AMD MI325X: $35K-45K 华为昇腾 910B: ¥150K-200K (国内) Intel Gaudi 3: $20K-30K (公开 ~便宜 30%)
整机柜(NVL72): 约 $3-4M / 柜 万卡 H100 集群: 约 $5-6 亿美元(GPU + 网络 + 整机)
|
待补充:实际项目预算和采购报价。
几个典型场景的清单
场景 1:互联网大厂训练 GPT-4 量级
1 2 3 4 5 6 7 8
| GPU: 10万 × NVIDIA H100/B200 拓扑: NVL72 × 1500 柜 网络: InfiniBand NDR 400G 存储: 集群级 50PB+ Lustre/WekaFS 功率: 150-200 MW 建设周期: 18-24 月 预算: $50 亿美元 + 代表案例: xAI Colossus、OpenAI、Microsoft、Meta
|
场景 2:国央企政企 AI 平台
1 2 3 4 5 6 7 8
| GPU: 1000-5000 × 华为昇腾 910B 拓扑: 华为 Atlas 800 / 900 网络: 鹊信 / RoCE 存储: 华为 OceanStor 分布式 建设周期: 6-12 月 预算: ¥几亿到几十亿 应用: 行业大模型训练 + 推理 代表案例: 电信运营商 / 国家电网 / 银行
|
场景 3:中小公司大模型推理 SaaS
1 2 3 4 5 6 7 8
| GPU: 10-100 × MI300X / H200 拓扑: 8 卡服务器 × N 网络: 100G 以太网(推理不需要 IB) 存储: 本地 NVMe + 对象存储 建设周期: 1-3 月 预算: $50万-1000万 应用: 7B-70B 推理服务 代表案例: 各类 AI 创业公司
|
场景 4:高校 / 科研机构
1 2 3 4
| GPU: 一般 8-32 × A100 / H100 预算: ¥1000万-1亿 应用: 学术研究 / 论文复现 / 教学 注: A100 仍然是性价比之王(二手市场量大)
|
几个常见的”GPU 坑”
坑 1:拿消费 GPU 跑生产推理
1 2 3 4 5 6 7
| RTX 4090 24GB: - 不支持 NVLink(4090 取消了) - 显存 24G,70B FP16 装不下 - PCIe 4.0,多卡通信慢 - 公司用 4090 跑生产合规上有问题 不是说不能用,只是踩坑率高。
|
坑 2:买 GPU 不买配套
1 2 3 4 5 6 7 8
| 错误:买了 8 张 H100 但用普通服务器主板 → PCIe 通道不够,性能减半 → 没 NVLink 桥接,多卡通信走 PCIe → 没 IB 网卡,跨节点训练崩
正确:买 HGX H100 / DGX H100 整机 → GPU + NVSwitch + 网卡都齐全 → 已经验证可用
|
坑 3:训练用国产 + 推理用 NVIDIA 混搭
1 2 3 4
| 训练完的模型放推理时要"重新调优算子" → AMD/华为/NVIDIA 算子精度差异 → 输出 token 完全可能不一样 → 推理质量下降需要重做评估
|
坑 4:忽视液冷的预算
1 2 3 4 5 6
| H100 SXM5 700W → 8卡 5.6 kW + 整机柜 12-15 kW B200 SXM5 1000W → 8卡 8 kW + 整机柜 15-20 kW NVL72 单柜 130 kW
如果数据中心是风冷的,根本上不了 NVL72 液冷改造预算占总预算 10-20%
|
坑 5:低估网络预算
1 2 3 4 5
| 万卡训练集群网络成本约占总预算 15-20%: - IB 400G 网卡:每张约 $3K - QM9700 NDR 64-port 交换机:每台约 $50K - 光模块 + 线缆:每端口 $500-1000 - 一万卡集群网络部分:$5000万+
|
坑 6:FP8/FP4 不是免费午餐
1 2 3 4
| B200 FP4 算力是 H100 FP8 的 4.5× 但 FP4 训练不能直接用——精度损失大 推理也要 calibration PyTorch / vLLM / TensorRT-LLM 都要支持
|
坑 7:MFU 远低于”理论”
1 2 3 4 5 6 7
| H100 BF16 峰值 1 PFLOPS,但训练 Llama 70B 的 MFU: - 朴素 PyTorch:15-25% - 官方优化:30-40% - SOTA:50-55%
意味着你买的"1 PFLOPS",实际只能用 0.3-0.5 PFLOPS 要把这 50% 损失算进 TCO
|
一张终极速查
| 业务 |
第 1 优先 |
第 2 选择 |
国产替代 |
| 大模型训练 万卡 |
NVIDIA NVL72 |
- |
华为 Atlas 900 |
| 大模型训练 千卡 |
NVIDIA HGX H100 |
AMD MI300X |
华为 Atlas |
| 大模型推理 70B+ |
AMD MI300X / H200 |
B200 |
昇腾 910B |
| 大模型推理 13B |
H100 / L40S |
A100 |
沐曦 / 摩尔线程 |
| MoE 推理 |
MI300X / MI325X |
H200 / B200 |
昇腾 |
| 推理超低延迟 |
Groq Cloud |
- |
- |
| 端侧推理 |
NVIDIA Jetson |
- |
各家 NPU |
| 个人开发 |
RTX 4090 / 5090 |
- |
摩尔线程 S80 |
| 高校科研 |
A100(二手)/ H100 |
- |
国产试点 |
第五章整体小结
回看第五章覆盖:
- GPU 历史 — 从图形流水线到 CUDA、SIMT、Tensor Core
- NVIDIA 数据中心 GPU 路线 — V100→A100→H100→B200→Rubin
- NVLink / NVSwitch / NVL72 — 多卡变成”一颗大 GPU”
- AMD Instinct — MI100 → MI300X → MI400,ROCm 生态
- Intel Gaudi / TPU / 其他加速器 — 非 GPU 路线的多种探索
- 国产 AI 芯片 — 昇腾、寒武纪、摩尔线程、燧原、壁仞、海光
- 训练 vs 推理 — 硬件视角的根本差异
- AI 集群网络 — InfiniBand、RoCE、Rail-Optimized
- GPU 选型与小结(本篇)
几条贯穿全章的主线:
graph LR
HW[GPU 硬件
Tensor Core + HBM]
CONN[NVLink + NVSwitch
+ NVL72]
NET[InfiniBand / RoCE
scale-out]
SW[CUDA + cuDNN + NCCL
软件栈]
FW[PyTorch / JAX
框架]
APP[大模型训练 + 推理]
HW --> CONN --> NET --> SW --> FW --> APP
核心认知:
- AI 算力的护城河是整套基础设施,不只是芯片
- NVIDIA 在硬件 + 软件 + 网卡 + 整机的”垂直整合”是真正的优势
- 单卡指标接近的国产芯片,离整套替代仍有 2-3 年距离
- 训练 vs 推理对硬件的诉求完全不同——选型不能一概而论
AI 算力未来 2-3 年的趋势
1 2 3 4 5 6 7 8 9 10
| 1. NVIDIA Rubin 加速一代/年 2. AMD MI400 / Intel 整合后下一代 3. 万卡集群成为大公司"标配" 4. NVLink Switch 系统普及(NVL576 等) 5. UALink 在 AMD/Intel 集群落地(NVLink 替代尝试) 6. CXL 在 AI 上的实验(远端显存池) 7. 推理硬件多元化(Groq / Cerebras / SambaNova 各占一块) 8. 国产 HBM3 量产(CXMT),昇腾 910C/910D 上量 9. FP4 / FP6 推理标准化 10. 液冷成为新建数据中心默认
|
几个”AI 时代特有”的硬件思维
1 2 3 4 5 6 7
| 1. 不要看"单卡纸面参数",看"集群有效算力" 2. 不要看"FP32 算力",看"BF16/FP8/FP4 算力" 3. 不要忽视 HBM 容量和带宽 4. 不要忽视 NVLink / NVSwitch 域大小 5. 不要忽视液冷和电力的预算 6. 不要忽视软件栈成熟度(特别是国产芯片) 7. 不要忽视集群运维难度(万卡级故障日常)
|
给读者的实战建议
如果你在公司负责 AI 算力规划:
1 2 3 4 5 6 7 8
| 1. 先搞清楚"训练 还是 推理"是主导 2. 调研团队的模型规模和未来 1-2 年规划 3. 明确国产化要求等级 4. 算 TCO 而非单卡价格 5. 留出液冷和电力改造预算 6. 网络和存储不要省(占 25-30% 总预算) 7. 软件栈培训和团队建设是隐藏成本 8. 留出 20-30% 容量做"未来扩展"
|
待补充:你公司或项目内的实际 GPU 选型决策过程我来写。
第五章结束
下一章进入第六章 网卡和数据中心网络。已经在本章 5.8 提到很多——下一章会展开:
- 网卡的演进(千兆 / 万兆 / 25G / 100G / 400G / 800G)
- 智能网卡(DPU)和 BlueField
- InfiniBand vs Ethernet vs RoCE 的全面对比
- Spine-Leaf 拓扑和 Fat-Tree
- 数据中心交换机(白盒 vs 品牌)
- 时延和拥塞控制(PFC、ECN、DCQCN)
- 国产网络芯片(中际旭创、华为光模块、新华三、锐捷)
- Telemetry / OAM / SONiC
Chapter 5 done.