网卡演进 —— 从千兆到 800G

第六章讲服务器网络。从单台服务器的网卡讲起——网卡是数据中心从”够用”走向”AI 集群”的关键驱动。本文按代次梳理。

一张时间轴

graph LR
  GE[1990s
百兆/千兆] --> TE[2010
万兆 10GbE]
  TE --> X25[2014
25GbE]
  X25 --> X100[2016
100GbE]
  X100 --> X200[2020
200GbE]
  X200 --> X400[2022
400GbE]
  X400 --> X800[2024
800GbE]
  X800 --> X1600[2026+
1.6TbE]

带宽每 4-5 年翻倍——和 PCIe / DDR / GPU 的节奏接近。

千兆和万兆时代（2000s-2010s）

1995-2000：百兆铜线（Cat-5）普及
2001：    Gigabit Ethernet (1GbE) 标准化
2002：    10 Gigabit Ethernet (10GbE) 标准化（光纤）
2010：    10GBASE-T 铜缆（Cat-6A）量产
2014：    10GbE 成为服务器主板默认（板载 LOM）

Intel X520 / X540 / X550 系列是这个时代的标杆——10GbE PCIe 网卡、双口、SFP+ 接口。Mellanox ConnectX-3、Broadcom 的 NetXtreme 也是同期产品。

服务器网卡这个时代的特征：

- PCIe 2.0 / 3.0 接口
- 多队列（RSS：Receive Side Scaling）
- TCP 卸载（TSO / LRO / GSO）
- SR-IOV 虚拟化支持
- 还没"智能"功能

25G 革命（2014-2018）

10G 之后业界曾设想”40G 是下一代”——但 40G 是 4× 10G 捆绑（4 lane × 10G），单 lane 仍是 10G。25G 是单 lane 25 Gbps 的物理重构：

1
2
3

SerDes 单 lane：10G → 25G
4× 25G = 100G（QSFP28 同口）
延迟和功耗比 4×10G 都好

25G 带动整个数据中心更新：

graph LR
  S25[25G 服务器口] --- L100[100G Spine 上行]
  L100 --- C[Core 100/400G]

ConnectX-4 / ConnectX-5 是 25G/100G 的代表网卡。

100G 时代（2016-2022）

100GbE 实现有几条路：

100G 拼法：
  4× 25G（CR4 / SR4 / KR4）：QSFP28 接口，1990s-2010s 主流
  4× 50G（PAM4）：           QSFP56 接口，2018+
  2× 50G：                  QSFP-DD 接口
  
信号编码：
  NRZ：    1 bit / symbol，10/25G 用
  PAM4：   2 bit / symbol，50G+ 必须用

PAM4（4-level Pulse Amplitude Modulation） 是物理层重大演进——一个符号传 2 bit。但 PAM4 信噪比敏感，引入了FEC（Forward Error Correction） 必须开。

1 2	`NRZ 25G：BER ~1e-12（不需要 FEC） PAM4 50G：BER ~1e-4（必须 RS-FEC，耗 ~100 ns 延迟）`

PAM4 + FEC 是大带宽时代的”代价”——每代延迟反而比 25G 略涨。

200G / 400G（2020-2024）

1
2
3

200GbE：4× 50G PAM4，QSFP56 / QSFP-DD
400GbE：8× 50G PAM4 / 4× 100G PAM4，QSFP-DD / OSFP
800GbE：8× 100G PAM4，OSFP / QSFP-DD800

接口	形态	端口数	典型用途
SFP+	单 lane	1	10G
SFP28	单 lane	1	25G
QSFP+	4 lane	1	40G
QSFP28	4 lane	1	100G (4×25G)
QSFP56	4 lane	1	200G (4×50G)
QSFP-DD	8 lane	1	400G/800G
OSFP	8 lane	1	400G/800G/1.6T
SFP-DD	2 lane	1	100G (2×50G)

ConnectX-7 是 NVIDIA 主力 400G 网卡（2022），单口 400G，PCIe 5.0 ×16。

800G 时代（2024-2026）

1
2
3

ConnectX-8：单口 800G（NVIDIA, 2024）
Broadcom Thor 2 / Tomahawk 5：800G 交换机芯片
Marvell Teralynx：800G ASIC

800G 带来的挑战：

1. PCIe 5.0 ×16 = 64 GB/s = 512 Gbps，800G 已超
   → 必须 PCIe 6.0 ×16（128 GB/s）才喂得满
2. 224G / lane PAM4 信号完整性极挑战
   → 线缆变短（DAC < 2m），光模块成本涨
3. 光模块功耗：每口 25-30W
   → 高密度交换机散热挑战
4. CPO（共封装光学）开始出现
   → 把光模块直接做进交换机芯片，省功耗

1.6T 路线图（2026+）

1.6 TbE：8× 200G PAM4 或 4× 400G PAM4
预计：    2026-2027 标准化，2027-2028 量产
形态：    OSFP-XD / OSFP1600
应用：    AI 集群下一代 NVL 系列、超大规模训练

待补充：1.6T 实际上市时间和厂家路线图。

PCIe 与网卡的”代次绑定”

每代以太网都需要配套 PCIe 升级：

以太网带宽	PCIe 代次 ×16 双向	配套关系
10G	PCIe 2.0 ×8（8 GB/s）	充裕
25G	PCIe 3.0 ×8（16 GB/s）	充裕
100G	PCIe 3.0 ×16 / 4.0 ×8	单向打满
200G	PCIe 4.0 ×16（64 GB/s）	充裕
400G	PCIe 5.0 ×16（128 GB/s）	单向 ~80%
800G	PCIe 5.0 ×16 紧张 / PCIe 6.0 ×16 必须	-
1.6T	PCIe 7.0（2028+）	-

这就是为什么 H100/B200 这一代必须 PCIe 5.0——网卡升级倒逼平台升级。

单网卡的内部结构

graph TB
  subgraph NIC["现代 100/400G 网卡"]
    PHY[PHY
SerDes / PAM4 / FEC]
    MAC[MAC
Ethernet 帧处理]
    RDMA[RDMA Engine
InfiniBand verbs]
    OFFLOAD[Offload Engines
TCP / TLS / Checksum]
    QUEUES[多队列
RSS / TC]
    PCIE[PCIe 5.0 ×16]
    
    PHY --> MAC --> RDMA --> QUEUES --> PCIE
    MAC --> OFFLOAD
  end

现代企业网卡功能远超”收发包”：

卸载（offload）：
  - 校验和计算
  - TSO（TCP Segment Offload）
  - LRO（Large Receive Offload）
  - GSO（Generic Segmentation Offload）
  - 加密：IPsec / TLS / MACsec
  - VXLAN / GRE 隧道封装

虚拟化：
  - SR-IOV：单网卡虚拟成 256 个 VF
  - VirtIO：para-virtualization

时间同步：
  - PTP（IEEE 1588）硬件打时间戳
  - 跨数据中心微秒级同步

可观测：
  - sFlow / NetFlow 采样
  - In-Network Telemetry

主流网卡厂家对比

graph TB
  N[网卡市场]
  N --> NV[NVIDIA Mellanox
ConnectX 系列]
  N --> BCM[Broadcom
NetXtreme 系列]
  N --> INT[Intel
E810 系列]
  N --> MAR[Marvell
FastLinQ / OCTEON]
  N --> CHE[Chelsio
T7 系列]
  N --> CN[国产
中科驭数 / 云豹智能]

厂家	系列	主打
NVIDIA Mellanox	ConnectX-7/8	InfiniBand + RoCE 双栈，AI 集群事实标准
Broadcom	Thor / Stingray	高密度以太网，云大厂主力
Intel	E810	中端，企业服务器板载
Marvell	FastLinQ / OCTEON	中端 + DPU
Chelsio	T7	RoCE / iWARP，金融存储多
中科驭数	KPU	国产 DPU，云市场切入
云豹智能	DPU	国产 DPU

ConnectX-7/8 在 AI 集群里几乎独占——NVIDIA 收购 Mellanox 后就是这样。

网卡形态：标准 vs OCP

数据中心服务器网卡常见两种形态：

标准 PCIe 卡（add-in card）：
  - 半高 / 全高
  - 2-3 槽位
  - 适合大多数服务器

OCP NIC 3.0：
  - Open Compute Project 标准
  - 更小更薄，免螺丝（拉手）
  - 共享主板供电，功耗封顶高
  - 云厂大规模部署用得多
  - 80mm × 116mm（小卡）/ 80mm × 139mm（大卡）

OCP 形态在 hyperscale（Facebook/Microsoft/阿里）已经是标配——热插拔 + 标准化 是关键诉求。

网卡功耗的演进

10G 网卡：  5-10W
25G：      8-15W
100G：     15-25W
400G：     25-35W
800G：     30-50W
800G + DPU：80-120W（接近 GPU 卡级别）

400G/800G 网卡功耗已经接近一颗 CPU——这是为什么数据中心机柜 PUE 一直走高。

光模块和线缆

graph TB
  CAB[网卡 ↔ 交换机]
  CAB --> DAC[DAC
无源铜
<7m]
  CAB --> AOC[AOC
有源光
<30m]
  CAB --> OPT[光模块
SR/LR/ER
0.1-40km]

类型	距离	功耗	成本
DAC（无源铜）	0.5-7m	<1W	低
AOC（有源光）	1-30m	5-10W	中
SR/SR4 短距光	100m	10-15W	中
LR/LR4 长距光	10km	15-20W	高
ER/ER4 长距	40km	20-30W	高
ZR / 相干光	80-120km	30-50W	极高

数据中心机柜内用 DAC，机柜间用 AOC，跨房间用光模块——成本和功耗逐级抬升。

万卡 AI 集群里光模块占总成本 10-15%——不是小数。

中国光模块产业

中际旭创（Innolight）：    全球出货量第一
新易盛：                  份额第二
华工科技 / 华工正源：     国内主力
博创科技 / 联特科技 / 光迅：增长中
源杰科技 / 仕佳光子：     上游芯片

中际旭创 800G 光模块在 2024-2025 年大规模供货 NVIDIA，是 AI 算力浪潮里的”卖铲人”。

待补充：中国光模块产业 2025 年占全球比例最新数据。

服务器网卡的几个调优要点

# 看网卡基础信息
ethtool eth0
ethtool -i eth0           # 驱动
ethtool -k eth0           # offload 功能

# 多队列和 IRQ
ethtool -l eth0           # 队列数
ethtool -L eth0 combined 16
ethtool -X eth0 equal 16  # RSS

# 中断绑定（避免一个核处理所有 IRQ）
cat /proc/interrupts | grep eth0
echo 4 > /proc/irq/<N>/smp_affinity  # 绑核

# Offload
ethtool -K eth0 tso on lro on gso on

# Ring buffer
ethtool -G eth0 rx 4096 tx 4096

# 看 RDMA 相关
ibv_devinfo
mlxconfig -d /dev/mst/mt4129_pciconf0 q
mlxlink -d mlx5_0

网卡选型实战

业务	推荐网卡
普通企业服务器	Intel E810 25G / 100G
互联网通用应用	Broadcom 100G OCP
金融低延迟交易	Solarflare X3 / Mellanox ConnectX-7（kernel bypass）
存储节点	Mellanox ConnectX-6/7 100/200G
AI 训练集群	Mellanox ConnectX-7/8 400/800G IB
AI 推理集群	Broadcom 100/200G RoCE
云主机宿主	Mellanox BlueField DPU 200G
国产化要求	中科驭数 / 云豹智能

待补充：实际项目中的网卡选型经验。

一些数字直觉

单服务器网卡：
  企业 OLTP：       2× 25G
  互联网 Web：      2× 25G / 100G
  存储：           2× 100G/200G
  AI 推理：        2× 200G/400G
  AI 训练：        8× 400G IB

机柜 ToR 上行：
  传统数据中心：   100G × 4
  云数据中心：     400G × 4
  AI 数据中心：    800G × 8

国家骨干：
  100G/400G/1.6T 等

小结

千兆 → 万兆 → 25G → 100G → 400G → 800G，每代约 4-5 年
PAM4 + FEC 是大带宽时代的物理基础
网卡功耗已经追上 CPU
AI 集群推动了 400G/800G 在数据中心快速普及
NVIDIA Mellanox 在 IB 网卡几乎独占
国产光模块（中际旭创等）在全球供应链中份额很高

下一篇讲智能网卡 / DPU——网卡上的”小服务器”。

06-网络

#网卡 #以太网 #100G #400G #800G

智能网卡与 DPU —— 网卡上的"小服务器" 上一篇

GPU 选型实战与第五章小结下一篇