第六章前面 7 篇分别讲了网卡演进、DPU、RDMA、拓扑、交换机 SONiC、无损网络、国产化。本篇收口。
网络选型的”五层决策”
graph TD
Q1[第 1 层: 业务类型?]
Q1 --> Q2[第 2 层: 集群规模?]
Q2 --> Q3[第 3 层: 拓扑选择?]
Q3 --> Q4[第 4 层: NOS 选择?]
Q4 --> Q5[第 5 层: 国产化要求?]
Q5 --> A[采购清单]
第 1 层:业务类型
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
| 普通 Web / 微服务: - 25G 服务器口 + 100G 上行 - 普通以太网,TCP 栈 - 不需要 RDMA
OLTP 数据库 / 存储: - 100G 服务器口 + 400G 上行 - 部分场景用 RDMA(DB 复制、SAN) - 需要可靠 + 低延迟
AI 推理: - 100/200G 服务器口 + 400G 上行 - 一般以太网,无需 RDMA(推理通信少) - 多副本扩展 > 单延迟
AI 训练(百卡内): - 200G 服务器口 + 400G 上行 - RoCE 即可 - 调优要求中
AI 训练(千卡 +): - 400G/800G 服务器口 - InfiniBand 或 Spectrum-X - Rail-Optimized 拓扑 - 调优要求极高
HPC: - InfiniBand 主流 - Slingshot / Cray 等专用 - MPI / UCX 通信库
|
第 2 层:集群规模
graph TD
N1[< 100 节点] --> S1[单层 Spine-Leaf
2-4 Spine + 8-16 Leaf]
N2[100-1000 节点] --> S2[完整 Spine-Leaf
多 Pod 设计可选]
N3[1000-10000 节点] --> S3[多 Pod Fat-Tree
或 Rail-Optimized]
N4[10000+ 节点] --> S4[多 Pod + Aggregation
专用网络团队]
第 3 层:拓扑选择
| 场景 |
拓扑 |
| 普通企业 IDC |
Spine-Leaf |
| 互联网中型 |
Spine-Leaf 多 Pod |
| Hyperscale |
4-5 层 Clos / Fat-Tree |
| AI 集群(千卡+) |
Rail-Optimized |
| HPC |
Dragonfly / Fat-Tree |
收敛比:
1 2 3
| 普通业务:3:1 ~ 4:1(节省钱) 存储后端:2:1 AI 训练:1:1(无收敛,必须)
|
第 4 层:NOS 选择
graph TD
Q1{是否 hyperscale?}
Q1 -- "万节点+" --> S1[SONiC 自研]
Q1 -- "千节点级" --> S2[SONiC 社区版 / Edgecore]
Q1 -- "传统企业" --> S3[Cisco IOS-XR / 华为 VRP / Arista]
Q1 -- "AI 集群" --> S4[NVIDIA Cumulus / Spectrum-X]
第 5 层:国产化要求
1 2 3
| 强国产化: 华为 / 新华三 / 锐捷 全栈 中等国产化: 国产 ASIC + 整机 + SONiC 弱国产化: 按业务需求选最合适
|
几个典型场景的清单
场景 1:传统企业 IDC
1 2 3 4 5 6 7
| 规模: 500 服务器 服务器口: 25G × 2(HA) ToR 交换机: 32×25G + 4×100G 上行 Spine 交换机: 32×100G 拓扑: Spine-Leaf 单层 NOS: Cisco / 华为 / 新华三 商业 预算: ¥几百万到上千万
|
场景 2:互联网中型云
1 2 3 4 5 6 7 8
| 规模: 5000 服务器 服务器口: 100G × 2 ToR: 48×100G + 8×400G 上行 Spine: 32×400G 拓扑: Spine-Leaf 多 Pod NOS: SONiC 存储后端网: 100G RoCE 预算: ¥几千万到亿级
|
场景 3:AI 训练集群(1024 H100)
1 2 3 4 5 6 7 8
| 规模: 128 节点 × 8 H100 服务器口: 8× 400G IB(每节点) ToR / Leaf: QM9700(32×400G NDR)× 32 Spine: QM9700 × 8 拓扑: 8 Rail × Spine-Leaf 存储 / 管理网: 独立 100G 以太网 NOS: NVIDIA UFM(IB 子网管理) 预算: $2-3 亿(含 GPU + 网络)
|
场景 4:万卡 AI 集群
1 2 3 4 5 6 7 8 9 10 11
| 规模: 10000 H100/B200 服务器口: 8× 400G/800G 拓扑: Rail-Optimized 多 Pod 每 Pod 1024 GPU Pod 间 Aggregation 层 网络: InfiniBand NDR/XDR + Spectrum-X 备选 NOS: NVIDIA UFM + 自研监控 存储: 独立 200G 以太网 建设周期: 12-18 月 预算: $5-10 亿(仅网络部分约 15-20%)
|
场景 5:国产 AI 千卡集群
1 2 3 4 5 6
| 规模: 1024 昇腾 910B 拓扑: 华为 Atlas 800/900 网络: 鹊信(华为 RoCE 衍生) 交换机: 华为 CE16800 存储: OceanStor 预算: ¥几亿(含 GPU + 网络)
|
网卡选型速查
| 业务 |
推荐 |
备注 |
| 普通服务器 |
Intel E810 25/100G OCP |
板载 LOM 替代 |
| 互联网通用 |
Broadcom Thor 100G OCP |
性价比 |
| 存储节点 |
Mellanox ConnectX-6/7 100/200G |
RoCE 调好 |
| 金融低延迟 |
Solarflare X3 / ConnectX |
kernel bypass |
| AI 训练 |
ConnectX-7/8 400/800G IB |
必选 |
| AI 推理 |
ConnectX-7 200G RoCE |
中端足够 |
| 云裸金属 |
BlueField-3 DPU 200G |
隔离 + 卸载 |
| 国产化 |
华为 / 中科驭数 / 云豹智能 |
100/200G 国产可用 |
交换机选型速查
| 场景 |
推荐 |
| 企业 IDC |
Cisco Nexus / 华为 CE / 新华三 S |
| 中型互联网 |
Edgecore + SONiC(Tomahawk 4/5) |
| Hyperscale |
自研 SONiC + Tomahawk 5 |
| AI 训练 IB |
NVIDIA Quantum-2/3 |
| AI 训练以太网 |
NVIDIA Spectrum-4 / Broadcom Jericho 3-AI |
| 国产化政企 |
华为 CE / 新华三 S |
| 国产化白盒 |
盛科 ASIC + 浪潮整机 + SONiC |
几个常见的”网络坑”
坑 1:网卡和 PCIe 不匹配
1 2 3 4 5
| 400G ConnectX-7 接 PCIe 4.0 ×16 = 64 GB/s 400G 单向 = 50 GB/s ✓ 400G 双向 = 100 GB/s ✗ → 必须 PCIe 5.0 ×16 才能跑双向满速
|
坑 2:光模块兼容性
1 2 3
| 不同厂家光模块 / DAC 不一定通用 建议: 买交换机 / 网卡时同厂家 OEM 光模块 风险: "兼容"光模块可能在某些固件上链路 down
|
坑 3:MTU 不一致
1 2 3
| RoCE / IB 标准 MTU 4096 端到端必须一致 否则丢包率突增
|
坑 4:PFC 配置不对称
1 2 3 4
| 两端网卡 PFC 启用,中间交换机没启用 → PAUSE 帧丢失,PFC 失效 → 网络 silently 退化为有损 → AI 训练性能崩
|
坑 5:万卡集群拥塞控制不调
1 2 3 4 5 6
| 默认 DCQCN 参数适合 100-1000 卡 万卡级要专门调: - ECN 阈值 - PFC headroom - DCQCN AI/HAI rate - 不调就是 30-50% 性能损失
|
坑 6:跨厂家集群
1 2 3 4 5 6
| NVIDIA Quantum-2 + Broadcom Tomahawk 同集群: - PFC 行为不一致 - SHARP 不能跨 - Adaptive Routing 不能联动 → 万卡级集群尽量"全 NVIDIA" 或 "全 Broadcom"
|
坑 7:管理网络忘记规划
1 2 3 4 5 6 7
| 集群 = 数据网 + 管理网 + IPMI 网 管理 / IPMI 经常被忽视: - 故障时连不上服务器 - 监控数据丢失 - 升级困难
建议: 独立 1G/10G 管理网,物理隔离
|
一些性能直觉数字
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| 端到端延迟(同机房): TCP socket: 30-50 μs iWARP RDMA: 10-15 μs RoCE v2: 3-5 μs InfiniBand: 1-2 μs GPUDirect over IB:2-3 μs
带宽(单口): 25G: ~3 GB/s 实测 100G: ~12 GB/s 200G: ~24 GB/s 400G: ~48 GB/s 800G: ~96 GB/s(PCIe 6.0 时代)
集群 AllReduce 性能: H100 节点内 NVLink:~1500 GB/s busbw H100 跨节点 IB(Rail):~360 GB/s busbw H100 跨节点 RoCE: ~340 GB/s(PFC 调好) 万卡集群 AllReduce 一次:1-3 ms
|
第六章整体小结
回看第六章覆盖:
- 网卡演进 — 千兆到 800G 的物理层
- DPU / SmartNIC — 网卡上的”小服务器”
- RDMA 深入 — IB / RoCE / iWARP 协议栈
- 数据中心拓扑 — Spine-Leaf / Fat-Tree / Rail-Optimized
- 交换机与 SONiC — 商用 vs 白盒
- 无损网络与拥塞控制 — PFC / ECN / DCQCN
- 国产网络产业链 — 芯片到整机到 NOS
- 网络选型与小结(本篇)
几条贯穿全章的主线:
graph LR
PHY[物理层
SerDes / PAM4 / 光模块]
LINK[链路层
以太网 + PFC]
NET[网络层
BGP / EVPN / VXLAN]
TRANSPORT[传输层
RDMA / TCP]
APP[应用层
NCCL / MPI]
PHY --> LINK --> NET --> TRANSPORT --> APP
核心认知:
- 网卡和交换机的演进节奏由 SerDes / PAM4 决定
- AI 集群拥塞控制是 1-3 月专项工作
- NVIDIA 在 AI 网络全栈(GPU + DPU + IB / Spectrum-X)已锁定
- 国产光模块全球领跑、ASIC 跟跑、IB 几乎空白
网络未来 2-3 年趋势
1 2 3 4 5 6 7 8 9 10
| 1. 800G 数据中心普及(2025-2026) 2. PCIe 6.0 配套 800G 网卡 3. CPO(共封装光学)开始量产 4. 1.6T 以太网试点(2026-2027) 5. UEC(Ultra Ethernet Consortium)—— 开放 AI 以太网替代 IB 6. NVIDIA Spectrum-X 普及到中型 AI 集群 7. 国产白盒 + SONiC 在中型互联网渗透加深 8. CXL 引入网络(CXL Fabric) 9. 中际旭创 1.6T 量产 10. AI 集群"全栈一家"成为大客户主流
|
UEC:Ultra Ethernet Consortium
值得单独提一句——UEC(2023 年成立):
1 2 3 4 5 6 7 8 9 10 11 12 13
| 联合: AMD、Intel、Broadcom、Meta、Microsoft、Cisco 等 目标: 针对 AI / HPC 优化的以太网标准 对手: NVIDIA InfiniBand 特点: - 开放标准 - per-packet adaptive routing - 改进的 PFC / ECN - 替代部分 IB 高级特性
时间线: 2024 年:UEC 1.0 标准 2025 年:首批产品 2026+: 规模商用
|
UEC 是想做”开放版 NVIDIA Spectrum-X”——但生态成熟仍需时间。
待补充:UEC 实际产品时间线和性能数据。
第六章结束 + 给读者的实战建议
如果你在公司负责网络规划:
1 2 3 4 5 6 7 8
| 1. 先搞清楚业务对网络的真实诉求(IOPS / 延迟 / 带宽) 2. 不要盲目上 RDMA / 800G——先评估实际收益 3. AI 集群网络 ≠ 一般数据中心网络,要早规划 4. 拥塞控制调优时间预算 1-3 月,不要小看 5. 国产化按业务等级分层选择 6. 光模块和线缆是隐性大头(10-20% 总预算) 7. 管理网和 IPMI 网不要忽视 8. 多厂家共存集群尽量避免
|
待补充:你公司或项目内的实际网络选型决策过程我来写。
还没写的内容(章节占位)
按章节规划,第六章另有”6.9 国产网络落地”留给你写实际项目情况。
下一章:操作系统
下一章进入第七章 操作系统。会重点讲:
- Linux 内核与服务器 OS 演进
- 容器化 / 虚拟化
- 调度器、网络协议栈、文件系统
- AI 时代的 OS 适配(vGPU / NPU 调度)
- 国产 OS(欧拉 / 麒麟 / 龙蜥 / 统信)
- 实时 / 边缘 OS
Chapter 6 done.