网卡演进 —— 从千兆到 800G

第六章讲服务器网络。从单台服务器的网卡讲起——网卡是数据中心从”够用”走向”AI 集群”的关键驱动。本文按代次梳理。

一张时间轴

graph LR
  GE[1990s
百兆/千兆] --> TE[2010
万兆 10GbE] TE --> X25[2014
25GbE] X25 --> X100[2016
100GbE] X100 --> X200[2020
200GbE] X200 --> X400[2022
400GbE] X400 --> X800[2024
800GbE] X800 --> X1600[2026+
1.6TbE]

带宽每 4-5 年翻倍——和 PCIe / DDR / GPU 的节奏接近。

千兆和万兆时代(2000s-2010s)

1
2
3
4
5
1995-2000:百兆铜线(Cat-5)普及
2001: Gigabit Ethernet (1GbE) 标准化
2002: 10 Gigabit Ethernet (10GbE) 标准化(光纤)
2010: 10GBASE-T 铜缆(Cat-6A)量产
2014: 10GbE 成为服务器主板默认(板载 LOM)

Intel X520 / X540 / X550 系列是这个时代的标杆——10GbE PCIe 网卡、双口、SFP+ 接口。Mellanox ConnectX-3、Broadcom 的 NetXtreme 也是同期产品。

服务器网卡这个时代的特征:

1
2
3
4
5
- PCIe 2.0 / 3.0 接口
- 多队列(RSS:Receive Side Scaling)
- TCP 卸载(TSO / LRO / GSO)
- SR-IOV 虚拟化支持
- 还没"智能"功能

25G 革命(2014-2018)

10G 之后业界曾设想”40G 是下一代”——但 40G 是 4× 10G 捆绑(4 lane × 10G),单 lane 仍是 10G。25G 是单 lane 25 Gbps 的物理重构:

1
2
3
SerDes 单 lane:10G → 25G
4× 25G = 100G(QSFP28 同口)
延迟和功耗比 4×10G 都好

25G 带动整个数据中心更新:

graph LR
  S25[25G 服务器口] --- L100[100G Spine 上行]
  L100 --- C[Core 100/400G]

ConnectX-4 / ConnectX-5 是 25G/100G 的代表网卡。

100G 时代(2016-2022)

100GbE 实现有几条路:

1
2
3
4
5
6
7
8
100G 拼法:
4× 25G(CR4 / SR4 / KR4):QSFP28 接口,1990s-2010s 主流
4× 50G(PAM4): QSFP56 接口,2018+
2× 50G: QSFP-DD 接口

信号编码:
NRZ: 1 bit / symbol,10/25G 用
PAM4: 2 bit / symbol,50G+ 必须用

PAM4(4-level Pulse Amplitude Modulation) 是物理层重大演进——一个符号传 2 bit。但 PAM4 信噪比敏感,引入了FEC(Forward Error Correction) 必须开。

1
2
NRZ 25G:BER ~1e-12(不需要 FEC)
PAM4 50G:BER ~1e-4(必须 RS-FEC,耗 ~100 ns 延迟)

PAM4 + FEC 是大带宽时代的”代价”——每代延迟反而比 25G 略涨。

200G / 400G(2020-2024)

1
2
3
200GbE:4× 50G PAM4,QSFP56 / QSFP-DD
400GbE:8× 50G PAM4 / 4× 100G PAM4,QSFP-DD / OSFP
800GbE:8× 100G PAM4,OSFP / QSFP-DD800
接口 形态 端口数 典型用途
SFP+ 单 lane 1 10G
SFP28 单 lane 1 25G
QSFP+ 4 lane 1 40G
QSFP28 4 lane 1 100G (4×25G)
QSFP56 4 lane 1 200G (4×50G)
QSFP-DD 8 lane 1 400G/800G
OSFP 8 lane 1 400G/800G/1.6T
SFP-DD 2 lane 1 100G (2×50G)

ConnectX-7 是 NVIDIA 主力 400G 网卡(2022),单口 400G,PCIe 5.0 ×16。

800G 时代(2024-2026)

1
2
3
ConnectX-8:单口 800G(NVIDIA, 2024)
Broadcom Thor 2 / Tomahawk 5:800G 交换机芯片
Marvell Teralynx:800G ASIC

800G 带来的挑战:

1
2
3
4
5
6
7
8
1. PCIe 5.0 ×16 = 64 GB/s = 512 Gbps,800G 已超
→ 必须 PCIe 6.0 ×16(128 GB/s)才喂得满
2. 224G / lane PAM4 信号完整性极挑战
→ 线缆变短(DAC < 2m),光模块成本涨
3. 光模块功耗:每口 25-30W
→ 高密度交换机散热挑战
4. CPO(共封装光学)开始出现
→ 把光模块直接做进交换机芯片,省功耗

1.6T 路线图(2026+)

1
2
3
4
1.6 TbE:8× 200G PAM4 或 4× 400G PAM4
预计: 2026-2027 标准化,2027-2028 量产
形态: OSFP-XD / OSFP1600
应用: AI 集群下一代 NVL 系列、超大规模训练

待补充:1.6T 实际上市时间和厂家路线图。

PCIe 与网卡的”代次绑定”

每代以太网都需要配套 PCIe 升级:

以太网带宽 PCIe 代次 ×16 双向 配套关系
10G PCIe 2.0 ×8(8 GB/s) 充裕
25G PCIe 3.0 ×8(16 GB/s) 充裕
100G PCIe 3.0 ×16 / 4.0 ×8 单向打满
200G PCIe 4.0 ×16(64 GB/s) 充裕
400G PCIe 5.0 ×16(128 GB/s) 单向 ~80%
800G PCIe 5.0 ×16 紧张 / PCIe 6.0 ×16 必须 -
1.6T PCIe 7.0(2028+) -

这就是为什么 H100/B200 这一代必须 PCIe 5.0——网卡升级倒逼平台升级。

单网卡的内部结构

graph TB
  subgraph NIC["现代 100/400G 网卡"]
    PHY[PHY
SerDes / PAM4 / FEC] MAC[MAC
Ethernet 帧处理] RDMA[RDMA Engine
InfiniBand verbs] OFFLOAD[Offload Engines
TCP / TLS / Checksum] QUEUES[多队列
RSS / TC] PCIE[PCIe 5.0 ×16] PHY --> MAC --> RDMA --> QUEUES --> PCIE MAC --> OFFLOAD end

现代企业网卡功能远超”收发包”:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
卸载(offload):
- 校验和计算
- TSO(TCP Segment Offload)
- LRO(Large Receive Offload)
- GSO(Generic Segmentation Offload)
- 加密:IPsec / TLS / MACsec
- VXLAN / GRE 隧道封装

虚拟化:
- SR-IOV:单网卡虚拟成 256 个 VF
- VirtIO:para-virtualization

时间同步:
- PTP(IEEE 1588)硬件打时间戳
- 跨数据中心微秒级同步

可观测:
- sFlow / NetFlow 采样
- In-Network Telemetry

主流网卡厂家对比

graph TB
  N[网卡市场]
  N --> NV[NVIDIA Mellanox
ConnectX 系列] N --> BCM[Broadcom
NetXtreme 系列] N --> INT[Intel
E810 系列] N --> MAR[Marvell
FastLinQ / OCTEON] N --> CHE[Chelsio
T7 系列] N --> CN[国产
中科驭数 / 云豹智能]
厂家 系列 主打
NVIDIA Mellanox ConnectX-7/8 InfiniBand + RoCE 双栈,AI 集群事实标准
Broadcom Thor / Stingray 高密度以太网,云大厂主力
Intel E810 中端,企业服务器板载
Marvell FastLinQ / OCTEON 中端 + DPU
Chelsio T7 RoCE / iWARP,金融存储多
中科驭数 KPU 国产 DPU,云市场切入
云豹智能 DPU 国产 DPU

ConnectX-7/8 在 AI 集群里几乎独占——NVIDIA 收购 Mellanox 后就是这样。

网卡形态:标准 vs OCP

数据中心服务器网卡常见两种形态:

1
2
3
4
5
6
7
8
9
10
11
标准 PCIe 卡(add-in card):
- 半高 / 全高
- 2-3 槽位
- 适合大多数服务器

OCP NIC 3.0:
- Open Compute Project 标准
- 更小更薄,免螺丝(拉手)
- 共享主板供电,功耗封顶高
- 云厂大规模部署用得多
- 80mm × 116mm(小卡)/ 80mm × 139mm(大卡)

OCP 形态在 hyperscale(Facebook/Microsoft/阿里)已经是标配——热插拔 + 标准化 是关键诉求。

网卡功耗的演进

1
2
3
4
5
6
10G 网卡:  5-10W
25G: 8-15W
100G: 15-25W
400G: 25-35W
800G: 30-50W
800G + DPU:80-120W(接近 GPU 卡级别)

400G/800G 网卡功耗已经接近一颗 CPU——这是为什么数据中心机柜 PUE 一直走高。

光模块和线缆

graph TB
  CAB[网卡 ↔ 交换机]
  CAB --> DAC[DAC
无源铜
<7m] CAB --> AOC[AOC
有源光
<30m] CAB --> OPT[光模块
SR/LR/ER
0.1-40km]
类型 距离 功耗 成本
DAC(无源铜) 0.5-7m <1W
AOC(有源光) 1-30m 5-10W
SR/SR4 短距光 100m 10-15W
LR/LR4 长距光 10km 15-20W
ER/ER4 长距 40km 20-30W
ZR / 相干光 80-120km 30-50W 极高

数据中心机柜内用 DAC,机柜间用 AOC,跨房间用光模块——成本和功耗逐级抬升。

万卡 AI 集群里光模块占总成本 10-15%——不是小数。

中国光模块产业

1
2
3
4
5
中际旭创(Innolight):    全球出货量第一
新易盛: 份额第二
华工科技 / 华工正源: 国内主力
博创科技 / 联特科技 / 光迅:增长中
源杰科技 / 仕佳光子: 上游芯片

中际旭创 800G 光模块在 2024-2025 年大规模供货 NVIDIA,是 AI 算力浪潮里的”卖铲人”。

待补充:中国光模块产业 2025 年占全球比例最新数据。

服务器网卡的几个调优要点

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# 看网卡基础信息
ethtool eth0
ethtool -i eth0 # 驱动
ethtool -k eth0 # offload 功能

# 多队列和 IRQ
ethtool -l eth0 # 队列数
ethtool -L eth0 combined 16
ethtool -X eth0 equal 16 # RSS

# 中断绑定(避免一个核处理所有 IRQ)
cat /proc/interrupts | grep eth0
echo 4 > /proc/irq/<N>/smp_affinity # 绑核

# Offload
ethtool -K eth0 tso on lro on gso on

# Ring buffer
ethtool -G eth0 rx 4096 tx 4096

# 看 RDMA 相关
ibv_devinfo
mlxconfig -d /dev/mst/mt4129_pciconf0 q
mlxlink -d mlx5_0

网卡选型实战

业务 推荐网卡
普通企业服务器 Intel E810 25G / 100G
互联网通用应用 Broadcom 100G OCP
金融低延迟交易 Solarflare X3 / Mellanox ConnectX-7(kernel bypass)
存储节点 Mellanox ConnectX-6/7 100/200G
AI 训练集群 Mellanox ConnectX-7/8 400/800G IB
AI 推理集群 Broadcom 100/200G RoCE
云主机宿主 Mellanox BlueField DPU 200G
国产化要求 中科驭数 / 云豹智能

待补充:实际项目中的网卡选型经验。

一些数字直觉

1
2
3
4
5
6
7
8
9
10
11
12
13
14
单服务器网卡:
企业 OLTP: 2× 25G
互联网 Web: 2× 25G / 100G
存储: 2× 100G/200G
AI 推理: 2× 200G/400G
AI 训练: 8× 400G IB

机柜 ToR 上行:
传统数据中心: 100G × 4
云数据中心: 400G × 4
AI 数据中心: 800G × 8

国家骨干:
100G/400G/1.6T 等

小结

  • 千兆 → 万兆 → 25G → 100G → 400G → 800G,每代约 4-5 年
  • PAM4 + FEC 是大带宽时代的物理基础
  • 网卡功耗已经追上 CPU
  • AI 集群推动了 400G/800G 在数据中心快速普及
  • NVIDIA Mellanox 在 IB 网卡几乎独占
  • 国产光模块(中际旭创等)在全球供应链中份额很高

下一篇讲智能网卡 / DPU——网卡上的”小服务器”。