网卡演进 —— 从千兆到 800G
第六章讲服务器网络。从单台服务器的网卡讲起——网卡是数据中心从”够用”走向”AI 集群”的关键驱动。本文按代次梳理。
一张时间轴
graph LR GE[1990s
百兆/千兆] --> TE[2010
万兆 10GbE] TE --> X25[2014
25GbE] X25 --> X100[2016
100GbE] X100 --> X200[2020
200GbE] X200 --> X400[2022
400GbE] X400 --> X800[2024
800GbE] X800 --> X1600[2026+
1.6TbE]
带宽每 4-5 年翻倍——和 PCIe / DDR / GPU 的节奏接近。
千兆和万兆时代(2000s-2010s)
1 | |
Intel X520 / X540 / X550 系列是这个时代的标杆——10GbE PCIe 网卡、双口、SFP+ 接口。Mellanox ConnectX-3、Broadcom 的 NetXtreme 也是同期产品。
服务器网卡这个时代的特征:
1 | |
25G 革命(2014-2018)
10G 之后业界曾设想”40G 是下一代”——但 40G 是 4× 10G 捆绑(4 lane × 10G),单 lane 仍是 10G。25G 是单 lane 25 Gbps 的物理重构:
1 | |
25G 带动整个数据中心更新:
graph LR S25[25G 服务器口] --- L100[100G Spine 上行] L100 --- C[Core 100/400G]
ConnectX-4 / ConnectX-5 是 25G/100G 的代表网卡。
100G 时代(2016-2022)
100GbE 实现有几条路:
1 | |
PAM4(4-level Pulse Amplitude Modulation) 是物理层重大演进——一个符号传 2 bit。但 PAM4 信噪比敏感,引入了FEC(Forward Error Correction) 必须开。
1 | |
PAM4 + FEC 是大带宽时代的”代价”——每代延迟反而比 25G 略涨。
200G / 400G(2020-2024)
1 | |
| 接口 | 形态 | 端口数 | 典型用途 |
|---|---|---|---|
| SFP+ | 单 lane | 1 | 10G |
| SFP28 | 单 lane | 1 | 25G |
| QSFP+ | 4 lane | 1 | 40G |
| QSFP28 | 4 lane | 1 | 100G (4×25G) |
| QSFP56 | 4 lane | 1 | 200G (4×50G) |
| QSFP-DD | 8 lane | 1 | 400G/800G |
| OSFP | 8 lane | 1 | 400G/800G/1.6T |
| SFP-DD | 2 lane | 1 | 100G (2×50G) |
ConnectX-7 是 NVIDIA 主力 400G 网卡(2022),单口 400G,PCIe 5.0 ×16。
800G 时代(2024-2026)
1 | |
800G 带来的挑战:
1 | |
1.6T 路线图(2026+)
1 | |
待补充:1.6T 实际上市时间和厂家路线图。
PCIe 与网卡的”代次绑定”
每代以太网都需要配套 PCIe 升级:
| 以太网带宽 | PCIe 代次 ×16 双向 | 配套关系 |
|---|---|---|
| 10G | PCIe 2.0 ×8(8 GB/s) | 充裕 |
| 25G | PCIe 3.0 ×8(16 GB/s) | 充裕 |
| 100G | PCIe 3.0 ×16 / 4.0 ×8 | 单向打满 |
| 200G | PCIe 4.0 ×16(64 GB/s) | 充裕 |
| 400G | PCIe 5.0 ×16(128 GB/s) | 单向 ~80% |
| 800G | PCIe 5.0 ×16 紧张 / PCIe 6.0 ×16 必须 | - |
| 1.6T | PCIe 7.0(2028+) | - |
这就是为什么 H100/B200 这一代必须 PCIe 5.0——网卡升级倒逼平台升级。
单网卡的内部结构
graph TB
subgraph NIC["现代 100/400G 网卡"]
PHY[PHY
SerDes / PAM4 / FEC]
MAC[MAC
Ethernet 帧处理]
RDMA[RDMA Engine
InfiniBand verbs]
OFFLOAD[Offload Engines
TCP / TLS / Checksum]
QUEUES[多队列
RSS / TC]
PCIE[PCIe 5.0 ×16]
PHY --> MAC --> RDMA --> QUEUES --> PCIE
MAC --> OFFLOAD
end
现代企业网卡功能远超”收发包”:
1 | |
主流网卡厂家对比
graph TB N[网卡市场] N --> NV[NVIDIA Mellanox
ConnectX 系列] N --> BCM[Broadcom
NetXtreme 系列] N --> INT[Intel
E810 系列] N --> MAR[Marvell
FastLinQ / OCTEON] N --> CHE[Chelsio
T7 系列] N --> CN[国产
中科驭数 / 云豹智能]
| 厂家 | 系列 | 主打 |
|---|---|---|
| NVIDIA Mellanox | ConnectX-7/8 | InfiniBand + RoCE 双栈,AI 集群事实标准 |
| Broadcom | Thor / Stingray | 高密度以太网,云大厂主力 |
| Intel | E810 | 中端,企业服务器板载 |
| Marvell | FastLinQ / OCTEON | 中端 + DPU |
| Chelsio | T7 | RoCE / iWARP,金融存储多 |
| 中科驭数 | KPU | 国产 DPU,云市场切入 |
| 云豹智能 | DPU | 国产 DPU |
ConnectX-7/8 在 AI 集群里几乎独占——NVIDIA 收购 Mellanox 后就是这样。
网卡形态:标准 vs OCP
数据中心服务器网卡常见两种形态:
1 | |
OCP 形态在 hyperscale(Facebook/Microsoft/阿里)已经是标配——热插拔 + 标准化 是关键诉求。
网卡功耗的演进
1 | |
400G/800G 网卡功耗已经接近一颗 CPU——这是为什么数据中心机柜 PUE 一直走高。
光模块和线缆
graph TB CAB[网卡 ↔ 交换机] CAB --> DAC[DAC
无源铜
<7m] CAB --> AOC[AOC
有源光
<30m] CAB --> OPT[光模块
SR/LR/ER
0.1-40km]
| 类型 | 距离 | 功耗 | 成本 |
|---|---|---|---|
| DAC(无源铜) | 0.5-7m | <1W | 低 |
| AOC(有源光) | 1-30m | 5-10W | 中 |
| SR/SR4 短距光 | 100m | 10-15W | 中 |
| LR/LR4 长距光 | 10km | 15-20W | 高 |
| ER/ER4 长距 | 40km | 20-30W | 高 |
| ZR / 相干光 | 80-120km | 30-50W | 极高 |
数据中心机柜内用 DAC,机柜间用 AOC,跨房间用光模块——成本和功耗逐级抬升。
万卡 AI 集群里光模块占总成本 10-15%——不是小数。
中国光模块产业
1 | |
中际旭创 800G 光模块在 2024-2025 年大规模供货 NVIDIA,是 AI 算力浪潮里的”卖铲人”。
待补充:中国光模块产业 2025 年占全球比例最新数据。
服务器网卡的几个调优要点
1 | |
网卡选型实战
| 业务 | 推荐网卡 |
|---|---|
| 普通企业服务器 | Intel E810 25G / 100G |
| 互联网通用应用 | Broadcom 100G OCP |
| 金融低延迟交易 | Solarflare X3 / Mellanox ConnectX-7(kernel bypass) |
| 存储节点 | Mellanox ConnectX-6/7 100/200G |
| AI 训练集群 | Mellanox ConnectX-7/8 400/800G IB |
| AI 推理集群 | Broadcom 100/200G RoCE |
| 云主机宿主 | Mellanox BlueField DPU 200G |
| 国产化要求 | 中科驭数 / 云豹智能 |
待补充:实际项目中的网卡选型经验。
一些数字直觉
1 | |
小结
- 千兆 → 万兆 → 25G → 100G → 400G → 800G,每代约 4-5 年
- PAM4 + FEC 是大带宽时代的物理基础
- 网卡功耗已经追上 CPU
- AI 集群推动了 400G/800G 在数据中心快速普及
- NVIDIA Mellanox 在 IB 网卡几乎独占
- 国产光模块(中际旭创等)在全球供应链中份额很高
下一篇讲智能网卡 / DPU——网卡上的”小服务器”。