智能网卡与 DPU —— 网卡上的"小服务器"

服务器上的 CPU 不只跑业务——还要处理网络收发、存储 I/O、加密解密、虚拟化网络。DPU(Data Processing Unit) 把这些”基础设施任务”卸载到网卡上,让 CPU 专心做业务。本文展开。

为什么需要 DPU

graph TB
  subgraph Before["传统服务器 CPU"]
    C1[20% 业务计算]
    C2[30% 虚拟化网络]
    C3[20% 存储 I/O]
    C4[15% 加密 / TLS]
    C5[15% 监控 / 安全]
  end

云数据中心调研发现:CPU 30-40% 周期用于”基础设施”——网络、存储、安全,业务实际拿到的只有 60-70%。这部分被称为”DC tax“。

DPU 的目标:

graph TB
  subgraph After["DPU 卸载后"]
    CPU[CPU
100% 业务] DPU[DPU 网卡
网络 + 存储 + 安全] CPU --- DPU end

把基础设施任务”赶下”CPU——既释放 CPU、又让基础设施可以独立升级 / 加固。

三个名字一个东西

1
2
3
4
SmartNIC:早期叫法(2015+),泛指有 offload 能力的网卡
DPU: NVIDIA 推广(2020+),强调"第三颗芯片"
IPU: Intel 推广(2021+),Infrastructure Processing Unit
xPU: AMD/Marvell 等的统称

本质都是**”网卡 + ARM/x86 CPU + 加速器”**,名字之争不重要。

DPU 的内部结构

以 NVIDIA BlueField-3 为例:

graph TB
  subgraph BF3["BlueField-3 DPU"]
    NIC[ConnectX-7 网卡内核
2× 400G] ARM[16× ARM Cortex-A78
2.75 GHz] DDR[16 GB DDR5
板载内存] NVME[NVMe-oF 加速器] SEC[安全引擎
IPsec / TLS / RegEx] PCIE[PCIe 5.0 ×16 → Host CPU] NIC --- ARM ARM --- DDR ARM --- NVME ARM --- SEC ARM --- PCIE end
部分 作用
网卡核 2× 400G 以太网 / IB
ARM 16 核 跑 Linux 实例(DOCA / DPF)
DDR5 内存 DPU 自己的 RAM,对 CPU 不可见
NVMe-oF 加速 远端 NVMe 协议解析
安全引擎 线速 IPsec / TLS / 正则匹配
PCIe 5.0 接到 Host CPU

DPU 本质上是一台独立的 ARM 服务器——板载 Linux + 16 核 + 16 GB RAM——挂在网卡形态里。

NVIDIA BlueField 演进

graph LR
  BF1[BlueField-1
2018
2× 25G + ARM A72] --> BF2[BlueField-2
2020
2× 100G + 8× A72] BF2 --> BF3[BlueField-3
2022
2× 400G + 16× A78] BF3 --> BF4[BlueField-4
预计 2025
800G + ARM v9]
BlueField-1 BlueField-2 BlueField-3 BlueField-4
量产 2018 2020 2022 预计 2025
网络 2× 25G 2× 100G 2× 400G 2× 800G
ARM 8× A72 8× A72 16× A78 ARM v9
内存 DDR4 DDR4 DDR5 16 GB -
PCIe 4.0 ×16 4.0 ×16 5.0 ×16 6.0 ×16
TDP 30-50W 60-90W 120-150W -

待补充:BlueField-4 实际规格和量产时间。

DPU 的典型用途

1. 虚拟化网络卸载(Open vSwitch)

1
2
3
4
传统:宿主机 CPU 跑 OvS-DPDK,吃 4-8 核
DPU:OvS 流表卸载到 DPU 硬件
→ CPU 0 占用
→ 转发性能 100M+ pps(每秒包数)

阿里云、AWS、Azure 大量部署 DPU 的核心原因。

2. 存储卸载(NVMe-oF)

1
2
3
4
传统:存储客户端跑在 CPU 上,TCP / RDMA 走 kernel
DPU:把 NVMe-oF target / initiator 跑在 DPU
→ 主机看到本地 NVMe,实际是远端
→ CPU 0 占用

例:AWS Nitro 让 EC2 实例看到的”本地盘”实际全部是远端 EBS——靠 DPU 实现。

3. 安全卸载(zero-trust)

1
2
3
4
5
6
DPU 跑独立 Linux + 防火墙 / IDS:
- 即使 Host 被攻陷,DPU 仍可信
- 可以审计 Host 出向流量
- 加密 / TLS 终结线速

应用: 微分段、零信任网络、合规审计

4. 云裸金属(bare metal)

1
2
3
4
租户拿到一台"完整服务器",但仍要被云控制:
- 监控 / 计费 / 网络由 DPU 做
- 租户对 Host CPU 有 root,但 DPU 拿不到
→ 安全边界从"虚拟化软件"挪到"硬件"

AWS Nitro、阿里神龙、腾讯黑石都是这个路线。

5. AI 集群网络加速

1
2
3
4
5
BlueField-3 在 AI 集群里:
- GPUDirect RDMA:GPU ↔ 网卡直通,不过 CPU
- In-Network Computing:SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)
→ 在网卡 / 交换机上就完成 AllReduce
→ 进一步降低 GPU 间通信延迟

SHARP:网卡里的”集合通信”

NVIDIA 的 SHARP(Scalable Hierarchical Aggregation Reduction Protocol) 是 IB 网络的特性——在交换机里做 AllReduce 等集合通信

graph TB
  subgraph Without["不用 SHARP"]
    G1[GPU 1] --> SW1[交换机]
    G2[GPU 2] --> SW1
    G3[GPU 3] --> SW1
    SW1 --> G1
    SW1 --> G2
    SW1 --> G3
  end
  subgraph With["用 SHARP"]
    G4[GPU 1] --> SW2[交换机
直接做 reduce] G5[GPU 2] --> SW2 G6[GPU 3] --> SW2 SW2 -->|reduced result| G4 SW2 -->|reduced result| G5 SW2 -->|reduced result| G6 end

效果:

1
2
3
- AllReduce 时间减半
- 降低尾延迟
- 大集群训练 MFU 提升 5-10%

SHARP 是 NVIDIA Quantum-2 IB 交换机 + ConnectX-7/8 + BlueField 的”专属能力”——开放以太网网络很难复制。

DOCA:DPU 的 SDK

NVIDIA 把 BlueField 软件栈叫 DOCA(Data-Center on-a-Chip Architecture):

graph TB
  APP[应用 / SDN]
  APP --> DOCA[DOCA SDK]
  DOCA --> FLOW[DOCA Flow
OvS / 流表] DOCA --> RDMA[DOCA RDMA
GPU Direct] DOCA --> SEC[DOCA Security
IPsec / TLS] DOCA --> STO[DOCA Storage
NVMe-oF] DOCA --> AI[DOCA Inference
把模型跑在 DPU]

DOCA = “DPU 上的 CUDA”——NVIDIA 想让 DPU 也变成开发者必须的”第三块芯片”。

Intel IPU

Intel 同样路线,但起步晚:

1
2
3
4
5
6
7
8
9
10
11
12
13
Mount Evans IPU(2022):
- 由 Intel + Google 联合设计
- 200G 以太网
- 16 核 ARM Neoverse N1
- 16 GB DDR4

Big Spring Canyon(2024):
- 200G + FPGA 加速
- 主要服务 Google / Cloud 客户

Intel IPU 路线 2024 年传重组:
- Intel 整体收缩 → IPU 路线降优先级
- 部分团队并入网络部门

待补充:Intel IPU 2025-2026 走向。

AMD Pensando DPU

AMD 2022 年收购 Pensando(前 Cisco MPLS 团队创业公司):

1
2
3
4
5
6
7
8
9
Pensando Elba(DPU2):
- 200G
- 16 核 ARM A78
- 主要客户:HPE、Microsoft Azure

Pensando Salina(DPU3,2024):
- 400G
- 全 ARM v9 架构
- HPE Aruba CX 系列集成

AMD 把 Pensando 与自家 EPYC 服务器/MI300X 整合,目标是”全套 AI 数据中心”。

待补充:AMD Pensando 2025+ 路线图。

Marvell OCTEON

Marvell 的 OCTEON 系列也是 DPU 路线:

1
2
3
4
OCTEON 10(2022):
- 双 400G
- 24 核 ARM Neoverse N2
- 应用:5G / 安全网关 / 数据中心

Marvell DPU 在电信和 5G 基站里部署较多。

主要厂家对比

厂家 产品 主打 客户
NVIDIA BlueField-3/4 AI 集群 + 云 OEM 全覆盖
Intel Mount Evans / Big Spring Google / Cloud 谷歌 + Azure
AMD Pensando Elba/Salina 通用云 + 企业 HPE / Azure
Marvell OCTEON 10 电信 / 5G / 安全 运营商
Broadcom Stingray 已停 -
中科驭数 KPU 国产 DPU 国内云
云豹智能 DPU 国产 DPU 国内云
大禹智芯 Paratus 国产 DPU -

国产 DPU

中国 DPU 市场 2020 年起涌现一批创业公司:

1
2
3
4
5
6
中科驭数(Yusur):     最早一批,KPU 系列
云豹智能(Cloud Bao): 阿里、字节投资
大禹智芯: 华为系
星云智联: 清华系
中兴 DPU: ZTE 路线
新华三 DPU: 企业网设备

这些公司主要打的是”信创 + 云专属”市场——但软件生态是大问题

1
2
3
NVIDIA DOCA / DPF / Spectrum-X:成熟
Intel / AMD: 基础可用
国产 DPU: 各家自己一套,PoC 居多,规模商用少

待补充:国产 DPU 2025-2026 实际部署规模。

DPU 的”软件挑战”

DPU 的硬件不难做——难在让用户愿意把基础设施搬上去

graph TB
  H[硬件 DPU]
  H --> V[虚拟化网络
OVS / vRouter] H --> S[存储栈
NVMe-oF / iSCSI] H --> SEC[安全栈
IPsec / 防火墙] H --> M[管理面
管控对接] V --> X1[K8s CNI / Cilium] S --> X2[Ceph / SPDK] SEC --> X3[Cilium / Calico] M --> X4[Slurm / Nomad / OpenStack]

每个组件都要重写 / 移植 / 调优——DOCA 之所以重要,是因为它把这些模块化了

DPU 的几个误区

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
误区 1:DPU 性能 = "ARM 16 核 × 时钟"
→ 错。DPU 的性能在硬件加速器(流表 / 加密 / NVMe),不在 ARM 核
→ 业务面跑流表 ≠ 跑 Linux 应用

误区 2:DPU = "网卡放个 CPU"
→ 错。DPU 必须有专用加速器才有意义
→ 否则不如直接 host CPU 跑

误区 3:DPU 万能
→ 错。DPU 16 GB 内存 / 16 核,跑不了大业务
→ 只能处理基础设施任务

误区 4:DPU 要替换网卡
→ 不一定。AI 集群里 ConnectX-7 普通网卡仍是主流
→ 只有云裸金属和特殊场景必须 DPU

实际部署场景

公有云裸金属

1
2
3
4
5
AWS Nitro:     Annapurna Labs 自研 DPU,每台 EC2 都有
Azure Cipher: 自研 DPU
GCP IPU: Intel Mount Evans 联合
阿里神龙: 自研 + 中科驭数
腾讯黑石 / 海光:自研 + 国产 DPU

公有云裸金属市场 DPU 已经是必需品——没有 DPU 就没办法在物理机上保证安全和管控边界。

私有云 / 企业 IT

1
2
3
VMware vSphere 8:原生支持 BlueField,virtual switch 卸载
Red Hat OpenShift:DPU 用于 K8s CNI
传统企业:DPU 渗透还很慢,PoC 阶段

企业 IT 私有云对 DPU 需求弱——业务体量不需要那么强的卸载。

AI 集群

1
2
3
4
H100 集群:     ConnectX-7 普通网卡为主
B200 集群: BlueField-3 开始逐步引入
xAI Colossus: ConnectX-7 + BlueField 混搭
SHARP: AI 训练里实际用得最多的 DPU 特性

一些查询命令

1
2
3
4
5
6
7
8
9
10
11
12
13
# BlueField DPU
ssh ubuntu@<DPU 内 IP> # 直接登录 DPU 的 ARM Linux
mlxconfig -d <DEV> q # DPU 配置
ovs-vsctl show # OvS 流表
docker ps # DPU 上的容器

# DOCA
doca_apsh # 应用框架
doca_dpa # 数据路径加速

# DPU 模式切换
mlxconfig -d <DEV> set INTERNAL_CPU_MODEL=1 # DPU 模式
mlxconfig -d <DEV> set INTERNAL_CPU_MODEL=0 # NIC 模式

选 SmartNIC 还是 DPU?

graph TD
  Q1[业务需要?]
  Q1 -- "纯网络加速" --> NIC[SmartNIC
ConnectX-7 / E810] Q1 -- "云裸金属 / 强隔离" --> DPU1[DPU
BlueField-3 / Pensando] Q1 -- "存算分离" --> DPU2[DPU
NVMe-oF target] Q1 -- "AI 集群一般训练" --> NIC2[SmartNIC + GPUDirect 即可] Q1 -- "AI 集群 + SHARP" --> DPU3[DPU + Quantum-2]

一些数字直觉

1
2
3
4
5
6
7
8
9
10
BlueField-3 DPU:
网络转发: 150-200 Mpps
TLS 卸载: 100 Gbps
IPsec 卸载: 100 Gbps
NVMe-oF: 数百万 IOPS

成本(单卡):
ConnectX-7 400G: ~$1500-2000
BlueField-3 400G: ~$2500-3500
Pensando 400G: ~$2000-3000

待补充:实际企业采购价格。

小结

  • DPU = SmartNIC + ARM CPU + 加速器,把”DC tax”卸下 CPU
  • NVIDIA BlueField-3 是市场领头,DOCA 软件栈最完整
  • Intel IPU、AMD Pensando、Marvell OCTEON 各有路线
  • 公有云裸金属已经离不开 DPU
  • AI 集群里 DPU 主要做 SHARP 和 GPUDirect
  • 国产 DPU 多家创业,规模商用仍在追

下一篇深入 RDMA 协议——IB / RoCE / iWARP 的深层差异。