数据中心交换机 —— 商用、白盒与 SONiC

数据中心交换机的世界过去 20 年发生了根本变化——硬件标准化(Broadcom Tomahawk 主导)、软件开源化(SONiC)。本文展开。

交换机内部分层

graph TB
  HW[硬件: 交换机芯片 ASIC
Broadcom / Marvell / Cisco / Innovium] SDK[厂家 SDK
SAI 抽象层] NOS[网络操作系统 NOS
SONiC / Cisco IOS-XR / Junos / Cumulus 等] PROTOCOL[协议栈
BGP / OSPF / EVPN / MLAG ...] MGMT[管理面
SSH / NETCONF / gNMI / SNMP] HW --> SDK --> NOS --> PROTOCOL NOS --> MGMT

交换机 = ASIC + NOS,过去这两个绑定在一起卖(Cisco/Juniper),现在解耦了。

商用品牌时代

1
2
3
4
5
6
Cisco:    Catalyst / Nexus / Silicon One
Juniper: EX / QFX / PTX
Arista: 7050 / 7060 / 7800
华为: CE / NE / S 系列
新华三: S 系列
锐捷: S/N 系列

商用品牌的特点:

1
2
3
4
5
6
+ 完整的硬件 + 软件 + 服务
+ 故障责任明确(一家负责)
+ 生态完整(CLI / 手册 / 培训)
- 价格高(毛利 60%+)
- 路线由厂家决定
- 锁定(vendor lock-in)

白盒(White Box)的兴起

2010 年代起 hyperscale 公司(Facebook / Google / Microsoft)发现一件事:

1
2
3
交换机 ASIC 都来自 Broadcom 一家
软件功能其实业务用的就那 20%
为什么要付 60% 的品牌溢价?

于是出现了白盒交换机——只卖硬件,软件用户自己装:

graph LR
  ASIC[Broadcom ASIC]
  ASIC --> ODM[ODM 整机
Edgecore / Mellanox / Celestica / Quanta] ODM --> NOS{NOS 选择} NOS --> SONIC[SONiC] NOS --> CUMULUS[Cumulus Linux] NOS --> DENT[DENT] NOS --> SELF[自研 NOS]

白盒生态的关键要素:

1
2
3
4
5
6
7
8
9
1. ONIE:Open Network Install Environment
→ 类似 PXE,让任意 NOS 都能装到白盒上

2. SAI:Switch Abstraction Interface
→ 屏蔽不同 ASIC 的差异
→ NOS 通过 SAI 调 ASIC

3. ONL:Open Network Linux
→ 通用 Linux 基础包

OCP(Open Compute Project)推动了白盒标准化——和服务器领域 OCP 服务器是同样思路。

主流交换机 ASIC

graph TB
  M[市场]
  M --> BCM[Broadcom
Tomahawk / Trident / Jericho] M --> NV[NVIDIA / Mellanox
Spectrum / Quantum] M --> INNO[Innovium
Teralynx
已被 Marvell 收购] M --> CISCO[Cisco
Silicon One] M --> MARVELL[Marvell
Teralynx / Prestera] M --> CN[国产
盛科 / 中兴 / 华为达芬奇]

Broadcom Tomahawk 系列(最主流)

1
2
3
4
5
6
Tomahawk 1(2014):32 × 100G = 3.2 Tbps
Tomahawk 2(2017):64 × 100G = 6.4 Tbps
Tomahawk 3(2019):32 × 400G = 12.8 Tbps
Tomahawk 4(2020):32 × 400G + 改进 = 25.6 Tbps
Tomahawk 5(2022):64 × 800G = 51.2 Tbps
Tomahawk 6(2024-2025):128 × 800G 或 64 × 1.6T = 102.4 Tbps

Tomahawk 系列特点:

1
2
3
4
- 高吞吐(pps + 带宽)
- 浅 buffer(适合数据中心)
- 数据中心内部通用
- 占据 hyperscale 80%+ 市场

Broadcom Jericho 系列

1
2
Jericho 2(2018):高 buffer,深 buffer 路由
Jericho 3-AI(2024):AI 集群专用,深 buffer + adaptive routing

Jericho 适合需要大缓冲的场景——长肥管道(WAN edge)、AI 训练后端。

Broadcom Trident 系列

1
2
Trident 4(2020):可编程,企业级 25.6 Tbps
Trident 5(2023):51.2 Tbps,可编程

Trident 强在可编程(NPL / P4-like),中端企业市场。

NVIDIA Spectrum / Quantum

1
2
3
4
5
6
7
Spectrum-2(2018):    100G/200G 以太网
Spectrum-3(2020): 400G 以太网
Spectrum-4(2023): 51.2 Tbps,800G
Spectrum-X(2023+): AI 优化以太网

Quantum-2(2022): 400G NDR InfiniBand
Quantum-3(2024): 800G XDR InfiniBand

Mellanox 被 NVIDIA 收购后,Spectrum + Quantum 是 NVIDIA 完整 AI 网络栈——和 BlueField + ConnectX 配套。

Cisco Silicon One

Cisco 自研 ASIC,2019 年发布:

1
2
3
4
5
6
7
Silicon One 共一个微架构
不同型号定位不同:
Q200 系列: 深 buffer 路由
P / G 系列: 数据中心

特点:让 Cisco 摆脱 Broadcom 依赖
但市场占比仍小(Cisco 自家产品用)

Innovium Teralynx(已被 Marvell 收购)

1
2
3
4
5
Teralynx 7(51.2 Tbps):AI 数据中心
Teralynx 10(102.4 Tbps):800G AI

被 Marvell 2022 年收购
持续与 Tomahawk 竞争

国产交换机芯片

1
2
3
4
5
6
盛科网络:       国产数据中心交换机芯片头号
CTC8180 等已量产
中兴微电子: ZX 系列
华为海思: 达芬奇 NPU 系列里的网络芯片
新华三: 自研
锐捷: 部分自研 + 部分采购

待补充:国产交换机芯片在数据中心市场的实际份额。

SONiC:开源 NOS 事实标准

SONiC(Software for Open Networking in the Cloud)= Microsoft 2016 年开源的网络操作系统:

graph TB
  APP[BGP / EVPN / LACP / DHCP]
  APP --> SAIRP[SAI Redis Pipeline]
  SAIRP --> SAI[SAI 抽象层]
  SAI --> ASIC[各家 ASIC SDK
Broadcom / Mellanox / Innovium] ASIC --> HW[硬件] K[Kubernetes / Docker] K --- APP

SONiC 是容器化 NOS——每个功能(BGP、SNMP、SyncD)都是独立 Docker 容器。

SONiC 的优势

1
2
3
4
5
6
7
8
9
10
11
12
13
1. 开源、免费
2. 统一支持多家 ASIC(Broadcom / Mellanox / Innovium)
3. 容器化,模块化
4. 大公司贡献活跃(Microsoft / 阿里 / 腾讯 / Arista 等)
5. 社区版 + 商业增强版(Edgecore 等)

主流功能:
- BGP(FRR)
- EVPN/VXLAN
- LACP
- LLDP / SNMP / NTP
- PFC / ECN
- VTY / CLI

SONiC 在国内

1
2
3
4
5
阿里:     早期主推 SONiC,"AlibabaSonic"
腾讯: 大量数据中心用 SONiC
字节: 部分集群 SONiC
Microsoft Azure:SONiC 创始者,主用
亚马逊: 部分用 SONiC

国内 SONiC 部署量在全球都是头部水平——是”白盒化”的主要受益者。

其他 NOS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Cumulus Linux(Mellanox 收购,已合并到 NVIDIA Cumulus):
- 类似 Ubuntu 风格的 NOS
- FRR + standard Linux
- 现已并入 NVIDIA Cumulus / NVIDIA SONiC

Arista EOS:
- Arista 自研,非开源
- Cloud / hyperscale 老牌

Cisco NX-OS / IOS-XR:
- Cisco 自家 NOS
- 商业服务器 + 路由器主流

Juniper Junos:
- Juniper 经典 NOS

DENT:
- Linux Foundation 主推的开源 NOS
- 边缘 / 企业方向

AI 集群专用交换机

NVIDIA Quantum-2 / Quantum-3(IB)

1
2
3
4
5
6
Quantum-2 QM9700:64-port 400G NDR
Quantum-3: 64-port 800G XDR
功能:
- SHARP 集合通信卸载
- Adaptive Routing
- 自动拓扑发现(IB 子网管理)

万卡 AI 训练集群的”默认 IB 交换机”。

NVIDIA Spectrum-X(以太网 AI)

1
2
3
4
5
Spectrum-4 ASIC:51.2 Tbps
特点: 针对 RoCE AI 流量优化
自适应路由(per-packet)
PFC / ECN 调优默认好用
配合 BlueField-3 做"AI 以太网"

NVIDIA 把它定位为”以太网版 SHARP”——让 RoCE 也能接近 IB 的 AI 性能。

Broadcom Jericho 3-AI

1
2
3
4
深 buffer + adaptive routing
专为 AI 训练 RoCE 设计
对标 Spectrum-X
2024 年量产

Cisco Silicon One AI

1
2
3
4
Cisco G200 / G400 系列:
- 可编程 P4 数据面
- AI 集群专用
- Cisco AI Pod 解决方案

白盒交换机的整机厂家

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Edgecore Networks(台湾):
- 白盒头部,SONiC 主推
- 全球出货量第一

Mellanox(已并入 NVIDIA):
- 自家 ASIC + 整机

Celestica:
- 北美 ODM
- Microsoft / Amazon 大客户

Quanta(广达):
- 台湾 ODM
- hyperscale 主供

Foxconn / 鸿佰:
- 也做白盒整机

Wiwynn / Pegatron:
- 同样路线

国内:
- Edgecore(中国)
- 锐捷网络
- 新华三 H3C
- 浪潮

“买商用还是用白盒”的现实

graph TD
  Q1[组织规模?]
  Q1 -- "巨型互联网/云" --> W[白盒 + SONiC
规模化省成本
自研更彻底] Q1 -- "中型互联网" --> M[白盒 SONiC + 商业支持
Edgecore / Arista] Q1 -- "传统企业" --> C[商业 Cisco / Arista / 华为
有售后保障] Q1 -- "AI 集群
1000 卡 +" --> A[NVIDIA Quantum / Spectrum-X]

自研白盒的临界点

1
2
3
< 1000 台交换机:买商业更划算(运维成本占大头)
1000-5000 台:可以考虑 SONiC + 商业支持
> 5000 台:自研 SONiC fork 是 hyperscale 标配

可编程交换机:P4 / Tofino

Barefoot Networks(已被 Intel 收购,2023 年关停)的 Tofino 是数据面可编程交换机:

1
2
3
4
5
6
7
8
9
10
11
Tofino 1 / 2 / 3:可用 P4 编程数据面
应用:
- 自定义 L7 负载均衡
- In-Network Computing(NetCache 等)
- INT(In-band Network Telemetry)
- DDoS 防护

但:
Intel 2023 年关停 Barefoot 部门
Tofino 系列不再迭代
P4 标准仍存活,但产品化差

P4 / 可编程网络是”曾经的明天”——但市场没站稳,主流回归 SONiC + 固定 ASIC。

待补充:Tofino 之后 P4 生态在 2025-2026 走向。

交换机的”远管”

1
2
3
4
5
6
7
8
9
10
11
SSH / CLI:     传统手工
NETCONF: XML over SSH
gNMI: gRPC + protobuf,主流
SNMP: monitoring
sFlow / NetFlow:流量采样

声明式:
Ansible / Salt: 批量执行
Cisco DNA Center: 厂家集成
Nokia SR Linux: 云原生 NOS
Apstra: 意图驱动网络(IBN)

数据中心几千台交换机不可能手工配——配置管理 + 声明式工具是必须

几个交换机的实战命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# SONiC 上查看
show interfaces status # 端口状态
show interfaces counters # 流量计数器
show ip bgp summary # BGP 状态
show ip route # 路由表

config interface speed Ethernet0 100000
config interface fec Ethernet0 rs

# Cumulus(NVIDIA Cumulus / 已合到 SONiC)
nv show interface
nv set interface swp1 speed 100G

# Cisco
show interface ethernet 1/1
show ip bgp summary

# 健康检查
show platform fan
show platform psu
show system health

交换机性能数字

1
2
3
4
5
6
7
8
9
10
11
12
Tomahawk 5(51.2 Tbps):
64-port 800G OSFP 形态
ASIC 功耗 ~500-700W
整机功耗 ~2000W(不含光模块)
+ 32-64 个 800G 光模块各 25W = 1600W
整机总功耗 ~3500W

转发性能:
线速:每端口都能跑满(51.2 Tbps 总)
L2 / L3 转发表:100K-1M
ACL:几万条
延迟:300-700 ns(fabric 延迟)

光模块占整机 50% 功耗——所以 CPO(共封装光学)是下一步重点。

国产数据中心交换机生态

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
盛科网络(Centec):
- 国产交换机 ASIC 头部
- CTC8180 系列(51.2 Tbps)
- 国内白盒厂家主要采购对象

新华三 H3C:
- 商业品牌
- 数据中心市场份额国内前列
- 部分自研 ASIC

锐捷网络:
- 商业品牌
- 部分用 Broadcom,部分自研

华为:
- 自研芯片 + 全栈
- 政企 / 运营商主流
- 美国制裁后依然在国内有强竞争力

待补充:国产数据中心交换机 2025-2026 实际市场份额。

“用 SONiC 还是商业 NOS”的现实

graph TB
  S[SONiC 优势]
  S --> S1[免费 + 开源]
  S --> S2[多 ASIC 支持]
  S --> S3[互联网厂广泛验证]
  
  C[商业 NOS 优势]
  C --> C1[厂家技术支持]
  C --> C2[功能完整
EVPN / VXLAN / MPLS] C --> C3[认证 + 审计] X[选 SONiC 的"隐性成本"] X --> X1[团队技能要求高] X --> X2[bug 自己修] X --> X3[小厂 ASIC 适配差]

互联网厂选 SONiC,传统企业仍买商业 NOS——这是 2026 年的现实。

小结

  • 交换机 = ASIC(Broadcom Tomahawk 主导)+ NOS(SONiC 主流)
  • 白盒生态由 ONIE / SAI / ONL 三件套支撑
  • SONiC 在 hyperscale 是事实标准,传统企业仍用商业 NOS
  • AI 集群有专用交换机:Quantum(IB)、Spectrum-X(以太网)、Jericho 3-AI
  • Tomahawk 5(51.2T)是 2025-2026 主力 ASIC
  • 国产交换机芯片(盛科)和整机(新华三、华为)已成熟

下一篇讲无损网络和拥塞控制——AI 集群最难调的部分。