网络选型实战与第六章小结

第六章前面 7 篇分别讲了网卡演进、DPU、RDMA、拓扑、交换机 SONiC、无损网络、国产化。本篇收口。

网络选型的”五层决策”

graph TD
  Q1[第 1 层: 业务类型?]
  Q1 --> Q2[第 2 层: 集群规模?]
  Q2 --> Q3[第 3 层: 拓扑选择?]
  Q3 --> Q4[第 4 层: NOS 选择?]
  Q4 --> Q5[第 5 层: 国产化要求?]
  Q5 --> A[采购清单]

第 1 层:业务类型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
普通 Web / 微服务:
- 25G 服务器口 + 100G 上行
- 普通以太网,TCP 栈
- 不需要 RDMA

OLTP 数据库 / 存储:
- 100G 服务器口 + 400G 上行
- 部分场景用 RDMA(DB 复制、SAN)
- 需要可靠 + 低延迟

AI 推理:
- 100/200G 服务器口 + 400G 上行
- 一般以太网,无需 RDMA(推理通信少)
- 多副本扩展 > 单延迟

AI 训练(百卡内):
- 200G 服务器口 + 400G 上行
- RoCE 即可
- 调优要求中

AI 训练(千卡 +):
- 400G/800G 服务器口
- InfiniBand 或 Spectrum-X
- Rail-Optimized 拓扑
- 调优要求极高

HPC:
- InfiniBand 主流
- Slingshot / Cray 等专用
- MPI / UCX 通信库

第 2 层:集群规模

graph TD
  N1[< 100 节点] --> S1[单层 Spine-Leaf
2-4 Spine + 8-16 Leaf] N2[100-1000 节点] --> S2[完整 Spine-Leaf
多 Pod 设计可选] N3[1000-10000 节点] --> S3[多 Pod Fat-Tree
或 Rail-Optimized] N4[10000+ 节点] --> S4[多 Pod + Aggregation
专用网络团队]

第 3 层:拓扑选择

场景 拓扑
普通企业 IDC Spine-Leaf
互联网中型 Spine-Leaf 多 Pod
Hyperscale 4-5 层 Clos / Fat-Tree
AI 集群(千卡+) Rail-Optimized
HPC Dragonfly / Fat-Tree

收敛比:

1
2
3
普通业务:3:1 ~ 4:1(节省钱)
存储后端:2:1
AI 训练:1:1(无收敛,必须)

第 4 层:NOS 选择

graph TD
  Q1{是否 hyperscale?}
  Q1 -- "万节点+" --> S1[SONiC 自研]
  Q1 -- "千节点级" --> S2[SONiC 社区版 / Edgecore]
  Q1 -- "传统企业" --> S3[Cisco IOS-XR / 华为 VRP / Arista]
  Q1 -- "AI 集群" --> S4[NVIDIA Cumulus / Spectrum-X]

第 5 层:国产化要求

1
2
3
强国产化:    华为 / 新华三 / 锐捷 全栈
中等国产化: 国产 ASIC + 整机 + SONiC
弱国产化: 按业务需求选最合适

几个典型场景的清单

场景 1:传统企业 IDC

1
2
3
4
5
6
7
规模:           500 服务器
服务器口: 25G × 2(HA)
ToR 交换机: 32×25G + 4×100G 上行
Spine 交换机: 32×100G
拓扑: Spine-Leaf 单层
NOS: Cisco / 华为 / 新华三 商业
预算: ¥几百万到上千万

场景 2:互联网中型云

1
2
3
4
5
6
7
8
规模:           5000 服务器
服务器口: 100G × 2
ToR: 48×100G + 8×400G 上行
Spine: 32×400G
拓扑: Spine-Leaf 多 Pod
NOS: SONiC
存储后端网: 100G RoCE
预算: ¥几千万到亿级

场景 3:AI 训练集群(1024 H100)

1
2
3
4
5
6
7
8
规模:           128 节点 × 8 H100
服务器口: 8× 400G IB(每节点)
ToR / Leaf: QM9700(32×400G NDR)× 32
Spine: QM9700 × 8
拓扑: 8 Rail × Spine-Leaf
存储 / 管理网: 独立 100G 以太网
NOS: NVIDIA UFM(IB 子网管理)
预算: $2-3 亿(含 GPU + 网络)

场景 4:万卡 AI 集群

1
2
3
4
5
6
7
8
9
10
11
规模:           10000 H100/B200
服务器口: 8× 400G/800G
拓扑: Rail-Optimized 多 Pod
每 Pod 1024 GPU
Pod 间 Aggregation 层
网络: InfiniBand NDR/XDR
+ Spectrum-X 备选
NOS: NVIDIA UFM + 自研监控
存储: 独立 200G 以太网
建设周期: 12-18 月
预算: $5-10 亿(仅网络部分约 15-20%)

场景 5:国产 AI 千卡集群

1
2
3
4
5
6
规模:           1024 昇腾 910B
拓扑: 华为 Atlas 800/900
网络: 鹊信(华为 RoCE 衍生)
交换机: 华为 CE16800
存储: OceanStor
预算: ¥几亿(含 GPU + 网络)

网卡选型速查

业务 推荐 备注
普通服务器 Intel E810 25/100G OCP 板载 LOM 替代
互联网通用 Broadcom Thor 100G OCP 性价比
存储节点 Mellanox ConnectX-6/7 100/200G RoCE 调好
金融低延迟 Solarflare X3 / ConnectX kernel bypass
AI 训练 ConnectX-7/8 400/800G IB 必选
AI 推理 ConnectX-7 200G RoCE 中端足够
云裸金属 BlueField-3 DPU 200G 隔离 + 卸载
国产化 华为 / 中科驭数 / 云豹智能 100/200G 国产可用

交换机选型速查

场景 推荐
企业 IDC Cisco Nexus / 华为 CE / 新华三 S
中型互联网 Edgecore + SONiC(Tomahawk 4/5)
Hyperscale 自研 SONiC + Tomahawk 5
AI 训练 IB NVIDIA Quantum-2/3
AI 训练以太网 NVIDIA Spectrum-4 / Broadcom Jericho 3-AI
国产化政企 华为 CE / 新华三 S
国产化白盒 盛科 ASIC + 浪潮整机 + SONiC

几个常见的”网络坑”

坑 1:网卡和 PCIe 不匹配

1
2
3
4
5
400G ConnectX-7 接 PCIe 4.0 ×16 = 64 GB/s
400G 单向 = 50 GB/s ✓
400G 双向 = 100 GB/s ✗

→ 必须 PCIe 5.0 ×16 才能跑双向满速

坑 2:光模块兼容性

1
2
3
不同厂家光模块 / DAC 不一定通用
建议: 买交换机 / 网卡时同厂家 OEM 光模块
风险: "兼容"光模块可能在某些固件上链路 down

坑 3:MTU 不一致

1
2
3
RoCE / IB 标准 MTU 4096
端到端必须一致
否则丢包率突增

坑 4:PFC 配置不对称

1
2
3
4
两端网卡 PFC 启用,中间交换机没启用
→ PAUSE 帧丢失,PFC 失效
→ 网络 silently 退化为有损
→ AI 训练性能崩

坑 5:万卡集群拥塞控制不调

1
2
3
4
5
6
默认 DCQCN 参数适合 100-1000 卡
万卡级要专门调:
- ECN 阈值
- PFC headroom
- DCQCN AI/HAI rate
- 不调就是 30-50% 性能损失

坑 6:跨厂家集群

1
2
3
4
5
6
NVIDIA Quantum-2 + Broadcom Tomahawk 同集群:
- PFC 行为不一致
- SHARP 不能跨
- Adaptive Routing 不能联动

→ 万卡级集群尽量"全 NVIDIA" 或 "全 Broadcom"

坑 7:管理网络忘记规划

1
2
3
4
5
6
7
集群 = 数据网 + 管理网 + IPMI 网
管理 / IPMI 经常被忽视:
- 故障时连不上服务器
- 监控数据丢失
- 升级困难

建议: 独立 1G/10G 管理网,物理隔离

一些性能直觉数字

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
端到端延迟(同机房):
TCP socket: 30-50 μs
iWARP RDMA: 10-15 μs
RoCE v2: 3-5 μs
InfiniBand: 1-2 μs
GPUDirect over IB:2-3 μs

带宽(单口):
25G: ~3 GB/s 实测
100G: ~12 GB/s
200G: ~24 GB/s
400G: ~48 GB/s
800G: ~96 GB/s(PCIe 6.0 时代)

集群 AllReduce 性能:
H100 节点内 NVLink:~1500 GB/s busbw
H100 跨节点 IB(Rail):~360 GB/s busbw
H100 跨节点 RoCE: ~340 GB/s(PFC 调好)
万卡集群 AllReduce 一次:1-3 ms

第六章整体小结

回看第六章覆盖:

  1. 网卡演进 — 千兆到 800G 的物理层
  2. DPU / SmartNIC — 网卡上的”小服务器”
  3. RDMA 深入 — IB / RoCE / iWARP 协议栈
  4. 数据中心拓扑 — Spine-Leaf / Fat-Tree / Rail-Optimized
  5. 交换机与 SONiC — 商用 vs 白盒
  6. 无损网络与拥塞控制 — PFC / ECN / DCQCN
  7. 国产网络产业链 — 芯片到整机到 NOS
  8. 网络选型与小结(本篇)

几条贯穿全章的主线:

graph LR
  PHY[物理层
SerDes / PAM4 / 光模块] LINK[链路层
以太网 + PFC] NET[网络层
BGP / EVPN / VXLAN] TRANSPORT[传输层
RDMA / TCP] APP[应用层
NCCL / MPI] PHY --> LINK --> NET --> TRANSPORT --> APP

核心认知

  • 网卡和交换机的演进节奏由 SerDes / PAM4 决定
  • AI 集群拥塞控制是 1-3 月专项工作
  • NVIDIA 在 AI 网络全栈(GPU + DPU + IB / Spectrum-X)已锁定
  • 国产光模块全球领跑、ASIC 跟跑、IB 几乎空白

网络未来 2-3 年趋势

1
2
3
4
5
6
7
8
9
10
1. 800G 数据中心普及(2025-2026)
2. PCIe 6.0 配套 800G 网卡
3. CPO(共封装光学)开始量产
4. 1.6T 以太网试点(2026-2027)
5. UEC(Ultra Ethernet Consortium)—— 开放 AI 以太网替代 IB
6. NVIDIA Spectrum-X 普及到中型 AI 集群
7. 国产白盒 + SONiC 在中型互联网渗透加深
8. CXL 引入网络(CXL Fabric)
9. 中际旭创 1.6T 量产
10. AI 集群"全栈一家"成为大客户主流

UEC:Ultra Ethernet Consortium

值得单独提一句——UEC(2023 年成立):

1
2
3
4
5
6
7
8
9
10
11
12
13
联合:     AMD、Intel、Broadcom、Meta、Microsoft、Cisco 等
目标: 针对 AI / HPC 优化的以太网标准
对手: NVIDIA InfiniBand
特点:
- 开放标准
- per-packet adaptive routing
- 改进的 PFC / ECN
- 替代部分 IB 高级特性

时间线:
2024 年:UEC 1.0 标准
2025 年:首批产品
2026+: 规模商用

UEC 是想做”开放版 NVIDIA Spectrum-X”——但生态成熟仍需时间。

待补充:UEC 实际产品时间线和性能数据。

第六章结束 + 给读者的实战建议

如果你在公司负责网络规划:

1
2
3
4
5
6
7
8
1. 先搞清楚业务对网络的真实诉求(IOPS / 延迟 / 带宽)
2. 不要盲目上 RDMA / 800G——先评估实际收益
3. AI 集群网络 ≠ 一般数据中心网络,要早规划
4. 拥塞控制调优时间预算 1-3 月,不要小看
5. 国产化按业务等级分层选择
6. 光模块和线缆是隐性大头(10-20% 总预算)
7. 管理网和 IPMI 网不要忽视
8. 多厂家共存集群尽量避免

待补充:你公司或项目内的实际网络选型决策过程我来写。

还没写的内容(章节占位)

按章节规划,第六章另有”6.9 国产网络落地”留给你写实际项目情况。

下一章:操作系统

下一章进入第七章 操作系统。会重点讲:

  • Linux 内核与服务器 OS 演进
  • 容器化 / 虚拟化
  • 调度器、网络协议栈、文件系统
  • AI 时代的 OS 适配(vGPU / NPU 调度)
  • 国产 OS(欧拉 / 麒麟 / 龙蜥 / 统信)
  • 实时 / 边缘 OS

Chapter 6 done.