网络选型实战与第六章小结

第六章前面 7 篇分别讲了网卡演进、DPU、RDMA、拓扑、交换机 SONiC、无损网络、国产化。本篇收口。

网络选型的”五层决策”

graph TD
  Q1[第 1 层: 业务类型?]
  Q1 --> Q2[第 2 层: 集群规模?]
  Q2 --> Q3[第 3 层: 拓扑选择?]
  Q3 --> Q4[第 4 层: NOS 选择?]
  Q4 --> Q5[第 5 层: 国产化要求?]
  Q5 --> A[采购清单]

第 1 层：业务类型

普通 Web / 微服务：
  - 25G 服务器口 + 100G 上行
  - 普通以太网，TCP 栈
  - 不需要 RDMA

OLTP 数据库 / 存储：
  - 100G 服务器口 + 400G 上行
  - 部分场景用 RDMA（DB 复制、SAN）
  - 需要可靠 + 低延迟

AI 推理：
  - 100/200G 服务器口 + 400G 上行
  - 一般以太网，无需 RDMA（推理通信少）
  - 多副本扩展 > 单延迟

AI 训练（百卡内）：
  - 200G 服务器口 + 400G 上行
  - RoCE 即可
  - 调优要求中

AI 训练（千卡 +）：
  - 400G/800G 服务器口
  - InfiniBand 或 Spectrum-X
  - Rail-Optimized 拓扑
  - 调优要求极高

HPC：
  - InfiniBand 主流
  - Slingshot / Cray 等专用
  - MPI / UCX 通信库

第 2 层：集群规模

graph TD
  N1[< 100 节点] --> S1[单层 Spine-Leaf
2-4 Spine + 8-16 Leaf]
  N2[100-1000 节点] --> S2[完整 Spine-Leaf
多 Pod 设计可选]
  N3[1000-10000 节点] --> S3[多 Pod Fat-Tree
或 Rail-Optimized]
  N4[10000+ 节点] --> S4[多 Pod + Aggregation
专用网络团队]

第 3 层：拓扑选择

场景	拓扑
普通企业 IDC	Spine-Leaf
互联网中型	Spine-Leaf 多 Pod
Hyperscale	4-5 层 Clos / Fat-Tree
AI 集群（千卡+）	Rail-Optimized
HPC	Dragonfly / Fat-Tree

收敛比：

1
2
3

普通业务：3:1 ~ 4:1（节省钱）
存储后端：2:1
AI 训练：1:1（无收敛，必须）

第 4 层：NOS 选择

graph TD
  Q1{是否 hyperscale?}
  Q1 -- "万节点+" --> S1[SONiC 自研]
  Q1 -- "千节点级" --> S2[SONiC 社区版 / Edgecore]
  Q1 -- "传统企业" --> S3[Cisco IOS-XR / 华为 VRP / Arista]
  Q1 -- "AI 集群" --> S4[NVIDIA Cumulus / Spectrum-X]

第 5 层：国产化要求

1
2
3

强国产化：    华为 / 新华三 / 锐捷 全栈
中等国产化：   国产 ASIC + 整机 + SONiC
弱国产化：     按业务需求选最合适

几个典型场景的清单

场景 1：传统企业 IDC

规模：           500 服务器
服务器口：       25G × 2（HA）
ToR 交换机：     32×25G + 4×100G 上行
Spine 交换机：   32×100G
拓扑：           Spine-Leaf 单层
NOS：           Cisco / 华为 / 新华三 商业
预算：           ¥几百万到上千万

场景 2：互联网中型云

规模：           5000 服务器
服务器口：       100G × 2
ToR：           48×100G + 8×400G 上行
Spine：         32×400G
拓扑：           Spine-Leaf 多 Pod
NOS：           SONiC
存储后端网：     100G RoCE
预算：           ¥几千万到亿级

场景 3：AI 训练集群（1024 H100）

规模：           128 节点 × 8 H100
服务器口：       8× 400G IB（每节点）
ToR / Leaf：     QM9700（32×400G NDR）× 32
Spine：         QM9700 × 8
拓扑：           8 Rail × Spine-Leaf
存储 / 管理网：   独立 100G 以太网
NOS：           NVIDIA UFM（IB 子网管理）
预算：           $2-3 亿（含 GPU + 网络）

场景 4：万卡 AI 集群

规模：           10000 H100/B200
服务器口：       8× 400G/800G
拓扑：           Rail-Optimized 多 Pod
                每 Pod 1024 GPU
                Pod 间 Aggregation 层
网络：           InfiniBand NDR/XDR
                + Spectrum-X 备选
NOS：           NVIDIA UFM + 自研监控
存储：           独立 200G 以太网
建设周期：       12-18 月
预算：           $5-10 亿（仅网络部分约 15-20%）

场景 5：国产 AI 千卡集群

规模：           1024 昇腾 910B
拓扑：           华为 Atlas 800/900
网络：           鹊信（华为 RoCE 衍生）
交换机：         华为 CE16800
存储：           OceanStor
预算：           ¥几亿（含 GPU + 网络）

网卡选型速查

业务	推荐	备注
普通服务器	Intel E810 25/100G OCP	板载 LOM 替代
互联网通用	Broadcom Thor 100G OCP	性价比
存储节点	Mellanox ConnectX-6/7 100/200G	RoCE 调好
金融低延迟	Solarflare X3 / ConnectX	kernel bypass
AI 训练	ConnectX-7/8 400/800G IB	必选
AI 推理	ConnectX-7 200G RoCE	中端足够
云裸金属	BlueField-3 DPU 200G	隔离 + 卸载
国产化	华为 / 中科驭数 / 云豹智能	100/200G 国产可用

交换机选型速查

场景	推荐
企业 IDC	Cisco Nexus / 华为 CE / 新华三 S
中型互联网	Edgecore + SONiC（Tomahawk 4/5）
Hyperscale	自研 SONiC + Tomahawk 5
AI 训练 IB	NVIDIA Quantum-2/3
AI 训练以太网	NVIDIA Spectrum-4 / Broadcom Jericho 3-AI
国产化政企	华为 CE / 新华三 S
国产化白盒	盛科 ASIC + 浪潮整机 + SONiC

几个常见的”网络坑”

坑 1：网卡和 PCIe 不匹配

400G ConnectX-7 接 PCIe 4.0 ×16 = 64 GB/s
   400G 单向 = 50 GB/s ✓
   400G 双向 = 100 GB/s ✗
   
→ 必须 PCIe 5.0 ×16 才能跑双向满速

坑 2：光模块兼容性

1
2
3

不同厂家光模块 / DAC 不一定通用
建议：   买交换机 / 网卡时同厂家 OEM 光模块
风险：   "兼容"光模块可能在某些固件上链路 down

坑 3：MTU 不一致

1
2
3

RoCE / IB 标准 MTU 4096
端到端必须一致
否则丢包率突增

坑 4：PFC 配置不对称

两端网卡 PFC 启用，中间交换机没启用
  → PAUSE 帧丢失，PFC 失效
  → 网络 silently 退化为有损
  → AI 训练性能崩

坑 5：万卡集群拥塞控制不调

默认 DCQCN 参数适合 100-1000 卡
万卡级要专门调：
  - ECN 阈值
  - PFC headroom
  - DCQCN AI/HAI rate
  - 不调就是 30-50% 性能损失

坑 6：跨厂家集群

NVIDIA Quantum-2 + Broadcom Tomahawk 同集群：
  - PFC 行为不一致
  - SHARP 不能跨
  - Adaptive Routing 不能联动
  
→ 万卡级集群尽量"全 NVIDIA" 或 "全 Broadcom"

坑 7：管理网络忘记规划

集群 = 数据网 + 管理网 + IPMI 网
管理 / IPMI 经常被忽视：
  - 故障时连不上服务器
  - 监控数据丢失
  - 升级困难

建议：    独立 1G/10G 管理网，物理隔离

一些性能直觉数字

端到端延迟（同机房）：
  TCP socket：       30-50 μs
  iWARP RDMA：      10-15 μs
  RoCE v2：         3-5 μs
  InfiniBand：      1-2 μs
  GPUDirect over IB：2-3 μs

带宽（单口）：
  25G：     ~3 GB/s 实测
  100G：    ~12 GB/s
  200G：    ~24 GB/s
  400G：    ~48 GB/s
  800G：    ~96 GB/s（PCIe 6.0 时代）

集群 AllReduce 性能：
  H100 节点内 NVLink：~1500 GB/s busbw
  H100 跨节点 IB（Rail）：~360 GB/s busbw
  H100 跨节点 RoCE：    ~340 GB/s（PFC 调好）
  万卡集群 AllReduce 一次：1-3 ms

第六章整体小结

回看第六章覆盖：

网卡演进 — 千兆到 800G 的物理层
DPU / SmartNIC — 网卡上的”小服务器”
RDMA 深入 — IB / RoCE / iWARP 协议栈
数据中心拓扑 — Spine-Leaf / Fat-Tree / Rail-Optimized
交换机与 SONiC — 商用 vs 白盒
无损网络与拥塞控制 — PFC / ECN / DCQCN
国产网络产业链 — 芯片到整机到 NOS
网络选型与小结（本篇）

几条贯穿全章的主线：

graph LR
  PHY[物理层
SerDes / PAM4 / 光模块]
  LINK[链路层
以太网 + PFC]
  NET[网络层
BGP / EVPN / VXLAN]
  TRANSPORT[传输层
RDMA / TCP]
  APP[应用层
NCCL / MPI]
  PHY --> LINK --> NET --> TRANSPORT --> APP

核心认知：

网卡和交换机的演进节奏由 SerDes / PAM4 决定
AI 集群拥塞控制是 1-3 月专项工作
NVIDIA 在 AI 网络全栈（GPU + DPU + IB / Spectrum-X）已锁定
国产光模块全球领跑、ASIC 跟跑、IB 几乎空白

网络未来 2-3 年趋势

1. 800G 数据中心普及（2025-2026）
2. PCIe 6.0 配套 800G 网卡
3. CPO（共封装光学）开始量产
4. 1.6T 以太网试点（2026-2027）
5. UEC（Ultra Ethernet Consortium）—— 开放 AI 以太网替代 IB
6. NVIDIA Spectrum-X 普及到中型 AI 集群
7. 国产白盒 + SONiC 在中型互联网渗透加深
8. CXL 引入网络（CXL Fabric）
9. 中际旭创 1.6T 量产
10. AI 集群"全栈一家"成为大客户主流

UEC：Ultra Ethernet Consortium

值得单独提一句——UEC（2023 年成立）：

联合：     AMD、Intel、Broadcom、Meta、Microsoft、Cisco 等
目标：     针对 AI / HPC 优化的以太网标准
对手：     NVIDIA InfiniBand
特点：     
  - 开放标准
  - per-packet adaptive routing
  - 改进的 PFC / ECN
  - 替代部分 IB 高级特性

时间线：
  2024 年：UEC 1.0 标准
  2025 年：首批产品
  2026+：  规模商用

UEC 是想做”开放版 NVIDIA Spectrum-X”——但生态成熟仍需时间。

待补充：UEC 实际产品时间线和性能数据。

第六章结束 + 给读者的实战建议

如果你在公司负责网络规划：

1. 先搞清楚业务对网络的真实诉求（IOPS / 延迟 / 带宽）
2. 不要盲目上 RDMA / 800G——先评估实际收益
3. AI 集群网络 ≠ 一般数据中心网络，要早规划
4. 拥塞控制调优时间预算 1-3 月，不要小看
5. 国产化按业务等级分层选择
6. 光模块和线缆是隐性大头（10-20% 总预算）
7. 管理网和 IPMI 网不要忽视
8. 多厂家共存集群尽量避免

待补充：你公司或项目内的实际网络选型决策过程我来写。

还没写的内容（章节占位）

按章节规划，第六章另有”6.9 国产网络落地”留给你写实际项目情况。

下一章：操作系统

下一章进入第七章操作系统。会重点讲：

Linux 内核与服务器 OS 演进
容器化 / 虚拟化
调度器、网络协议栈、文件系统
AI 时代的 OS 适配（vGPU / NPU 调度）
国产 OS（欧拉 / 麒麟 / 龙蜥 / 统信）
实时 / 边缘 OS

Chapter 6 done.

06-网络

#网络选型 #第六章小结

Linux 服务器 OS 演进 —— 从 RHEL 到现代发行版上一篇

国产网卡与交换机 —— 产业链全景下一篇