智能网卡与 DPU —— 网卡上的"小服务器"

服务器上的 CPU 不只跑业务——还要处理网络收发、存储 I/O、加密解密、虚拟化网络。DPU（Data Processing Unit） 把这些”基础设施任务”卸载到网卡上，让 CPU 专心做业务。本文展开。

为什么需要 DPU

graph TB
  subgraph Before["传统服务器 CPU"]
    C1[20% 业务计算]
    C2[30% 虚拟化网络]
    C3[20% 存储 I/O]
    C4[15% 加密 / TLS]
    C5[15% 监控 / 安全]
  end

云数据中心调研发现：CPU 30-40% 周期用于”基础设施”——网络、存储、安全，业务实际拿到的只有 60-70%。这部分被称为”DC tax“。

DPU 的目标：

graph TB
  subgraph After["DPU 卸载后"]
    CPU[CPU
100% 业务]
    DPU[DPU 网卡
网络 + 存储 + 安全]
    
    CPU --- DPU
  end

把基础设施任务”赶下”CPU——既释放 CPU、又让基础设施可以独立升级 / 加固。

三个名字一个东西

SmartNIC：早期叫法（2015+），泛指有 offload 能力的网卡
DPU：    NVIDIA 推广（2020+），强调"第三颗芯片"
IPU：    Intel 推广（2021+），Infrastructure Processing Unit
xPU：    AMD/Marvell 等的统称

本质都是**”网卡 + ARM/x86 CPU + 加速器”**，名字之争不重要。

DPU 的内部结构

以 NVIDIA BlueField-3 为例：

graph TB
  subgraph BF3["BlueField-3 DPU"]
    NIC[ConnectX-7 网卡内核
2× 400G]
    ARM[16× ARM Cortex-A78
2.75 GHz]
    DDR[16 GB DDR5
板载内存]
    NVME[NVMe-oF 加速器]
    SEC[安全引擎
IPsec / TLS / RegEx]
    PCIE[PCIe 5.0 ×16 → Host CPU]
    
    NIC --- ARM
    ARM --- DDR
    ARM --- NVME
    ARM --- SEC
    ARM --- PCIE
  end

部分	作用
网卡核	2× 400G 以太网 / IB
ARM 16 核	跑 Linux 实例（DOCA / DPF）
DDR5 内存	DPU 自己的 RAM，对 CPU 不可见
NVMe-oF 加速	远端 NVMe 协议解析
安全引擎	线速 IPsec / TLS / 正则匹配
PCIe 5.0	接到 Host CPU

DPU 本质上是一台独立的 ARM 服务器——板载 Linux + 16 核 + 16 GB RAM——挂在网卡形态里。

NVIDIA BlueField 演进

graph LR
  BF1[BlueField-1
2018
2× 25G + ARM A72] --> BF2[BlueField-2
2020
2× 100G + 8× A72]
  BF2 --> BF3[BlueField-3
2022
2× 400G + 16× A78]
  BF3 --> BF4[BlueField-4
预计 2025
800G + ARM v9]

	BlueField-1	BlueField-2	BlueField-3	BlueField-4
量产	2018	2020	2022	预计 2025
网络	2× 25G	2× 100G	2× 400G	2× 800G
ARM	8× A72	8× A72	16× A78	ARM v9
内存	DDR4	DDR4	DDR5 16 GB	-
PCIe	4.0 ×16	4.0 ×16	5.0 ×16	6.0 ×16
TDP	30-50W	60-90W	120-150W	-

待补充：BlueField-4 实际规格和量产时间。

DPU 的典型用途

1. 虚拟化网络卸载（Open vSwitch）

传统：宿主机 CPU 跑 OvS-DPDK，吃 4-8 核
DPU：OvS 流表卸载到 DPU 硬件
  → CPU 0 占用
  → 转发性能 100M+ pps（每秒包数）

阿里云、AWS、Azure 大量部署 DPU 的核心原因。

2. 存储卸载（NVMe-oF）

传统：存储客户端跑在 CPU 上，TCP / RDMA 走 kernel
DPU：把 NVMe-oF target / initiator 跑在 DPU
  → 主机看到本地 NVMe，实际是远端
  → CPU 0 占用

例：AWS Nitro 让 EC2 实例看到的”本地盘”实际全部是远端 EBS——靠 DPU 实现。

3. 安全卸载（zero-trust）

DPU 跑独立 Linux + 防火墙 / IDS：
  - 即使 Host 被攻陷，DPU 仍可信
  - 可以审计 Host 出向流量
  - 加密 / TLS 终结线速

应用：     微分段、零信任网络、合规审计

4. 云裸金属（bare metal）

租户拿到一台"完整服务器"，但仍要被云控制：
  - 监控 / 计费 / 网络由 DPU 做
  - 租户对 Host CPU 有 root，但 DPU 拿不到
  → 安全边界从"虚拟化软件"挪到"硬件"

AWS Nitro、阿里神龙、腾讯黑石都是这个路线。

5. AI 集群网络加速

BlueField-3 在 AI 集群里：
  - GPUDirect RDMA：GPU ↔ 网卡直通，不过 CPU
  - In-Network Computing：SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）
    → 在网卡 / 交换机上就完成 AllReduce
    → 进一步降低 GPU 间通信延迟

SHARP：网卡里的”集合通信”

NVIDIA 的 SHARP（Scalable Hierarchical Aggregation Reduction Protocol） 是 IB 网络的特性——在交换机里做 AllReduce 等集合通信：

graph TB
  subgraph Without["不用 SHARP"]
    G1[GPU 1] --> SW1[交换机]
    G2[GPU 2] --> SW1
    G3[GPU 3] --> SW1
    SW1 --> G1
    SW1 --> G2
    SW1 --> G3
  end
  subgraph With["用 SHARP"]
    G4[GPU 1] --> SW2[交换机
直接做 reduce]
    G5[GPU 2] --> SW2
    G6[GPU 3] --> SW2
    SW2 -->|reduced result| G4
    SW2 -->|reduced result| G5
    SW2 -->|reduced result| G6
  end

效果：

1
2
3

- AllReduce 时间减半
- 降低尾延迟
- 大集群训练 MFU 提升 5-10%

SHARP 是 NVIDIA Quantum-2 IB 交换机 + ConnectX-7/8 + BlueField 的”专属能力”——开放以太网网络很难复制。

DOCA：DPU 的 SDK

NVIDIA 把 BlueField 软件栈叫 DOCA（Data-Center on-a-Chip Architecture）：

graph TB
  APP[应用 / SDN]
  APP --> DOCA[DOCA SDK]
  DOCA --> FLOW[DOCA Flow
OvS / 流表]
  DOCA --> RDMA[DOCA RDMA
GPU Direct]
  DOCA --> SEC[DOCA Security
IPsec / TLS]
  DOCA --> STO[DOCA Storage
NVMe-oF]
  DOCA --> AI[DOCA Inference
把模型跑在 DPU]

DOCA = “DPU 上的 CUDA”——NVIDIA 想让 DPU 也变成开发者必须的”第三块芯片”。

Intel IPU

Intel 同样路线，但起步晚：

Mount Evans IPU（2022）：
  - 由 Intel + Google 联合设计
  - 200G 以太网
  - 16 核 ARM Neoverse N1
  - 16 GB DDR4

Big Spring Canyon（2024）：
  - 200G + FPGA 加速
  - 主要服务 Google / Cloud 客户

Intel IPU 路线 2024 年传重组：
  - Intel 整体收缩 → IPU 路线降优先级
  - 部分团队并入网络部门

待补充：Intel IPU 2025-2026 走向。

AMD Pensando DPU

AMD 2022 年收购 Pensando（前 Cisco MPLS 团队创业公司）：

Pensando Elba（DPU2）：
  - 200G
  - 16 核 ARM A78
  - 主要客户：HPE、Microsoft Azure

Pensando Salina（DPU3，2024）：
  - 400G
  - 全 ARM v9 架构
  - HPE Aruba CX 系列集成

AMD 把 Pensando 与自家 EPYC 服务器/MI300X 整合，目标是”全套 AI 数据中心”。

待补充：AMD Pensando 2025+ 路线图。

Marvell OCTEON

Marvell 的 OCTEON 系列也是 DPU 路线：

OCTEON 10（2022）：
  - 双 400G
  - 24 核 ARM Neoverse N2
  - 应用：5G / 安全网关 / 数据中心

Marvell DPU 在电信和 5G 基站里部署较多。

主要厂家对比

厂家	产品	主打	客户
NVIDIA	BlueField-3/4	AI 集群 + 云	OEM 全覆盖
Intel	Mount Evans / Big Spring	Google / Cloud	谷歌 + Azure
AMD	Pensando Elba/Salina	通用云 + 企业	HPE / Azure
Marvell	OCTEON 10	电信 / 5G / 安全	运营商
Broadcom	Stingray	已停	-
中科驭数	KPU	国产 DPU	国内云
云豹智能	DPU	国产 DPU	国内云
大禹智芯	Paratus	国产 DPU	-

国产 DPU

中国 DPU 市场 2020 年起涌现一批创业公司：

中科驭数（Yusur）：     最早一批，KPU 系列
云豹智能（Cloud Bao）： 阿里、字节投资
大禹智芯：             华为系
星云智联：             清华系
中兴 DPU：             ZTE 路线
新华三 DPU：           企业网设备

这些公司主要打的是”信创 + 云专属”市场——但软件生态是大问题：

1
2
3

NVIDIA DOCA / DPF / Spectrum-X：成熟
Intel / AMD：       基础可用
国产 DPU：         各家自己一套，PoC 居多，规模商用少

待补充：国产 DPU 2025-2026 实际部署规模。

DPU 的”软件挑战”

DPU 的硬件不难做——难在让用户愿意把基础设施搬上去：

graph TB
  H[硬件 DPU]
  H --> V[虚拟化网络
OVS / vRouter]
  H --> S[存储栈
NVMe-oF / iSCSI]
  H --> SEC[安全栈
IPsec / 防火墙]
  H --> M[管理面
管控对接]
  
  V --> X1[K8s CNI / Cilium]
  S --> X2[Ceph / SPDK]
  SEC --> X3[Cilium / Calico]
  M --> X4[Slurm / Nomad / OpenStack]

每个组件都要重写 / 移植 / 调优——DOCA 之所以重要，是因为它把这些模块化了。

DPU 的几个误区

误区 1：DPU 性能 = "ARM 16 核 × 时钟"
  → 错。DPU 的性能在硬件加速器（流表 / 加密 / NVMe），不在 ARM 核
  → 业务面跑流表 ≠ 跑 Linux 应用
  
误区 2：DPU = "网卡放个 CPU"
  → 错。DPU 必须有专用加速器才有意义
  → 否则不如直接 host CPU 跑

误区 3：DPU 万能
  → 错。DPU 16 GB 内存 / 16 核，跑不了大业务
  → 只能处理基础设施任务

误区 4：DPU 要替换网卡
  → 不一定。AI 集群里 ConnectX-7 普通网卡仍是主流
  → 只有云裸金属和特殊场景必须 DPU

实际部署场景

公有云裸金属

AWS Nitro：     Annapurna Labs 自研 DPU，每台 EC2 都有
Azure Cipher：  自研 DPU
GCP IPU：       Intel Mount Evans 联合
阿里神龙：      自研 + 中科驭数
腾讯黑石 / 海光：自研 + 国产 DPU

公有云裸金属市场 DPU 已经是必需品——没有 DPU 就没办法在物理机上保证安全和管控边界。

私有云 / 企业 IT

1
2
3

VMware vSphere 8：原生支持 BlueField，virtual switch 卸载
Red Hat OpenShift：DPU 用于 K8s CNI
传统企业：DPU 渗透还很慢，PoC 阶段

企业 IT 私有云对 DPU 需求弱——业务体量不需要那么强的卸载。

AI 集群

H100 集群：     ConnectX-7 普通网卡为主
B200 集群：     BlueField-3 开始逐步引入
xAI Colossus：  ConnectX-7 + BlueField 混搭
SHARP：       AI 训练里实际用得最多的 DPU 特性

一些查询命令

# BlueField DPU
ssh ubuntu@<DPU 内 IP>     # 直接登录 DPU 的 ARM Linux
mlxconfig -d <DEV> q      # DPU 配置
ovs-vsctl show            # OvS 流表
docker ps                 # DPU 上的容器

# DOCA
doca_apsh                 # 应用框架
doca_dpa                  # 数据路径加速

# DPU 模式切换
mlxconfig -d <DEV> set INTERNAL_CPU_MODEL=1  # DPU 模式
mlxconfig -d <DEV> set INTERNAL_CPU_MODEL=0  # NIC 模式

选 SmartNIC 还是 DPU？

graph TD
  Q1[业务需要?]
  Q1 -- "纯网络加速" --> NIC[SmartNIC
ConnectX-7 / E810]
  Q1 -- "云裸金属 / 强隔离" --> DPU1[DPU
BlueField-3 / Pensando]
  Q1 -- "存算分离" --> DPU2[DPU
NVMe-oF target]
  Q1 -- "AI 集群一般训练" --> NIC2[SmartNIC + GPUDirect 即可]
  Q1 -- "AI 集群 + SHARP" --> DPU3[DPU + Quantum-2]

一些数字直觉

BlueField-3 DPU：
  网络转发：     150-200 Mpps
  TLS 卸载：    100 Gbps
  IPsec 卸载：  100 Gbps
  NVMe-oF：    数百万 IOPS

成本（单卡）：
  ConnectX-7 400G：   ~$1500-2000
  BlueField-3 400G：  ~$2500-3500
  Pensando 400G：    ~$2000-3000

待补充：实际企业采购价格。

小结

DPU = SmartNIC + ARM CPU + 加速器，把”DC tax”卸下 CPU
NVIDIA BlueField-3 是市场领头，DOCA 软件栈最完整
Intel IPU、AMD Pensando、Marvell OCTEON 各有路线
公有云裸金属已经离不开 DPU
AI 集群里 DPU 主要做 SHARP 和 GPUDirect
国产 DPU 多家创业，规模商用仍在追

下一篇深入 RDMA 协议——IB / RoCE / iWARP 的深层差异。

06-网络

#DPU #SmartNIC #BlueField #IPU

RDMA 深入 —— InfiniBand、RoCE 与 iWARP 上一篇

网卡演进 —— 从千兆到 800G 下一篇