智能网卡与 DPU —— 网卡上的"小服务器"
服务器上的 CPU 不只跑业务——还要处理网络收发、存储 I/O、加密解密、虚拟化网络。DPU(Data Processing Unit) 把这些”基础设施任务”卸载到网卡上,让 CPU 专心做业务。本文展开。
为什么需要 DPU
graph TB
subgraph Before["传统服务器 CPU"]
C1[20% 业务计算]
C2[30% 虚拟化网络]
C3[20% 存储 I/O]
C4[15% 加密 / TLS]
C5[15% 监控 / 安全]
end
云数据中心调研发现:CPU 30-40% 周期用于”基础设施”——网络、存储、安全,业务实际拿到的只有 60-70%。这部分被称为”DC tax“。
DPU 的目标:
graph TB
subgraph After["DPU 卸载后"]
CPU[CPU
100% 业务]
DPU[DPU 网卡
网络 + 存储 + 安全]
CPU --- DPU
end
把基础设施任务”赶下”CPU——既释放 CPU、又让基础设施可以独立升级 / 加固。
三个名字一个东西
1 | |
本质都是**”网卡 + ARM/x86 CPU + 加速器”**,名字之争不重要。
DPU 的内部结构
以 NVIDIA BlueField-3 为例:
graph TB
subgraph BF3["BlueField-3 DPU"]
NIC[ConnectX-7 网卡内核
2× 400G]
ARM[16× ARM Cortex-A78
2.75 GHz]
DDR[16 GB DDR5
板载内存]
NVME[NVMe-oF 加速器]
SEC[安全引擎
IPsec / TLS / RegEx]
PCIE[PCIe 5.0 ×16 → Host CPU]
NIC --- ARM
ARM --- DDR
ARM --- NVME
ARM --- SEC
ARM --- PCIE
end
| 部分 | 作用 |
|---|---|
| 网卡核 | 2× 400G 以太网 / IB |
| ARM 16 核 | 跑 Linux 实例(DOCA / DPF) |
| DDR5 内存 | DPU 自己的 RAM,对 CPU 不可见 |
| NVMe-oF 加速 | 远端 NVMe 协议解析 |
| 安全引擎 | 线速 IPsec / TLS / 正则匹配 |
| PCIe 5.0 | 接到 Host CPU |
DPU 本质上是一台独立的 ARM 服务器——板载 Linux + 16 核 + 16 GB RAM——挂在网卡形态里。
NVIDIA BlueField 演进
graph LR BF1[BlueField-1
2018
2× 25G + ARM A72] --> BF2[BlueField-2
2020
2× 100G + 8× A72] BF2 --> BF3[BlueField-3
2022
2× 400G + 16× A78] BF3 --> BF4[BlueField-4
预计 2025
800G + ARM v9]
| BlueField-1 | BlueField-2 | BlueField-3 | BlueField-4 | |
|---|---|---|---|---|
| 量产 | 2018 | 2020 | 2022 | 预计 2025 |
| 网络 | 2× 25G | 2× 100G | 2× 400G | 2× 800G |
| ARM | 8× A72 | 8× A72 | 16× A78 | ARM v9 |
| 内存 | DDR4 | DDR4 | DDR5 16 GB | - |
| PCIe | 4.0 ×16 | 4.0 ×16 | 5.0 ×16 | 6.0 ×16 |
| TDP | 30-50W | 60-90W | 120-150W | - |
待补充:BlueField-4 实际规格和量产时间。
DPU 的典型用途
1. 虚拟化网络卸载(Open vSwitch)
1 | |
阿里云、AWS、Azure 大量部署 DPU 的核心原因。
2. 存储卸载(NVMe-oF)
1 | |
例:AWS Nitro 让 EC2 实例看到的”本地盘”实际全部是远端 EBS——靠 DPU 实现。
3. 安全卸载(zero-trust)
1 | |
4. 云裸金属(bare metal)
1 | |
AWS Nitro、阿里神龙、腾讯黑石都是这个路线。
5. AI 集群网络加速
1 | |
SHARP:网卡里的”集合通信”
NVIDIA 的 SHARP(Scalable Hierarchical Aggregation Reduction Protocol) 是 IB 网络的特性——在交换机里做 AllReduce 等集合通信:
graph TB
subgraph Without["不用 SHARP"]
G1[GPU 1] --> SW1[交换机]
G2[GPU 2] --> SW1
G3[GPU 3] --> SW1
SW1 --> G1
SW1 --> G2
SW1 --> G3
end
subgraph With["用 SHARP"]
G4[GPU 1] --> SW2[交换机
直接做 reduce]
G5[GPU 2] --> SW2
G6[GPU 3] --> SW2
SW2 -->|reduced result| G4
SW2 -->|reduced result| G5
SW2 -->|reduced result| G6
end
效果:
1 | |
SHARP 是 NVIDIA Quantum-2 IB 交换机 + ConnectX-7/8 + BlueField 的”专属能力”——开放以太网网络很难复制。
DOCA:DPU 的 SDK
NVIDIA 把 BlueField 软件栈叫 DOCA(Data-Center on-a-Chip Architecture):
graph TB APP[应用 / SDN] APP --> DOCA[DOCA SDK] DOCA --> FLOW[DOCA Flow
OvS / 流表] DOCA --> RDMA[DOCA RDMA
GPU Direct] DOCA --> SEC[DOCA Security
IPsec / TLS] DOCA --> STO[DOCA Storage
NVMe-oF] DOCA --> AI[DOCA Inference
把模型跑在 DPU]
DOCA = “DPU 上的 CUDA”——NVIDIA 想让 DPU 也变成开发者必须的”第三块芯片”。
Intel IPU
Intel 同样路线,但起步晚:
1 | |
待补充:Intel IPU 2025-2026 走向。
AMD Pensando DPU
AMD 2022 年收购 Pensando(前 Cisco MPLS 团队创业公司):
1 | |
AMD 把 Pensando 与自家 EPYC 服务器/MI300X 整合,目标是”全套 AI 数据中心”。
待补充:AMD Pensando 2025+ 路线图。
Marvell OCTEON
Marvell 的 OCTEON 系列也是 DPU 路线:
1 | |
Marvell DPU 在电信和 5G 基站里部署较多。
主要厂家对比
| 厂家 | 产品 | 主打 | 客户 |
|---|---|---|---|
| NVIDIA | BlueField-3/4 | AI 集群 + 云 | OEM 全覆盖 |
| Intel | Mount Evans / Big Spring | Google / Cloud | 谷歌 + Azure |
| AMD | Pensando Elba/Salina | 通用云 + 企业 | HPE / Azure |
| Marvell | OCTEON 10 | 电信 / 5G / 安全 | 运营商 |
| Broadcom | Stingray | 已停 | - |
| 中科驭数 | KPU | 国产 DPU | 国内云 |
| 云豹智能 | DPU | 国产 DPU | 国内云 |
| 大禹智芯 | Paratus | 国产 DPU | - |
国产 DPU
中国 DPU 市场 2020 年起涌现一批创业公司:
1 | |
这些公司主要打的是”信创 + 云专属”市场——但软件生态是大问题:
1 | |
待补充:国产 DPU 2025-2026 实际部署规模。
DPU 的”软件挑战”
DPU 的硬件不难做——难在让用户愿意把基础设施搬上去:
graph TB H[硬件 DPU] H --> V[虚拟化网络
OVS / vRouter] H --> S[存储栈
NVMe-oF / iSCSI] H --> SEC[安全栈
IPsec / 防火墙] H --> M[管理面
管控对接] V --> X1[K8s CNI / Cilium] S --> X2[Ceph / SPDK] SEC --> X3[Cilium / Calico] M --> X4[Slurm / Nomad / OpenStack]
每个组件都要重写 / 移植 / 调优——DOCA 之所以重要,是因为它把这些模块化了。
DPU 的几个误区
1 | |
实际部署场景
公有云裸金属
1 | |
公有云裸金属市场 DPU 已经是必需品——没有 DPU 就没办法在物理机上保证安全和管控边界。
私有云 / 企业 IT
1 | |
企业 IT 私有云对 DPU 需求弱——业务体量不需要那么强的卸载。
AI 集群
1 | |
一些查询命令
1 | |
选 SmartNIC 还是 DPU?
graph TD Q1[业务需要?] Q1 -- "纯网络加速" --> NIC[SmartNIC
ConnectX-7 / E810] Q1 -- "云裸金属 / 强隔离" --> DPU1[DPU
BlueField-3 / Pensando] Q1 -- "存算分离" --> DPU2[DPU
NVMe-oF target] Q1 -- "AI 集群一般训练" --> NIC2[SmartNIC + GPUDirect 即可] Q1 -- "AI 集群 + SHARP" --> DPU3[DPU + Quantum-2]
一些数字直觉
1 | |
待补充:实际企业采购价格。
小结
- DPU = SmartNIC + ARM CPU + 加速器,把”DC tax”卸下 CPU
- NVIDIA BlueField-3 是市场领头,DOCA 软件栈最完整
- Intel IPU、AMD Pensando、Marvell OCTEON 各有路线
- 公有云裸金属已经离不开 DPU
- AI 集群里 DPU 主要做 SHARP 和 GPUDirect
- 国产 DPU 多家创业,规模商用仍在追
下一篇深入 RDMA 协议——IB / RoCE / iWARP 的深层差异。