ARM 服务器 CPU —— Graviton、Grace、AmpereOne

ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来,到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。

ARM 服务器的”逆袭逻辑”

为什么 ARM 在 2018 年之后突然能做服务器?三个变化:

graph LR
  V1[ARMv8 64位
2011 规范] --> S[ARM 服务器可行] V2[云原生 + 容器
x86 锁定弱化] --> S V3[超大规模云厂自研
规模摊薄成本] --> S S --> ECON[经济性成立]
  • 指令集成熟:ARMv8 64 位规范完整,可以跑现代 Linux 发行版
  • 生态去 x86 化:容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
  • 超大规模厂商:自己一次买几百万颗芯片,自研定制比买通用芯片更划算

第三点是关键。只有能消化几百万颗芯片销量的厂商,才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞,而不是普通 OEM 渠道。

AWS Graviton:第一个跑起来的

亚马逊 2015 年收购 Annapurna Labs,2018 年发布 Graviton 1,让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。

代次 核心 工艺 核数 量产年份 实例类型
Graviton 1 Cortex-A72 16nm 16 2018 A1(验证性产品)
Graviton 2 Neoverse N1 7nm 64 2019 M6g/C6g/R6g 大规模铺开
Graviton 3 Neoverse V1 5nm 64 2022 M7g/C7g/R7g,DDR5
Graviton 3E Neoverse V1 5nm 64 2022 HPC 优化
Graviton 4 Neoverse V2 4nm 96 2024 R8g/M8g/C8g

Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%,AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。

到 2024 年,AWS 自家新部署的服务器超过 50% 是 Graviton

NVIDIA Grace:为 AI 而生

NVIDIA 不是传统 CPU 厂商,但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的:

  • CPU↔GPU 高带宽互联(PCIe 5.0 x16 双向 128 GB/s 不够用)
  • CPU 侧 LPDDR 大容量低延迟
  • 统一内存地址空间

为此 NVIDIA 自研了 Grace CPU,并把它跟 GPU 集成到一颗 module 里。

Grace CPU 单芯片

规格
核心 72 × Neoverse V2
缓存 117 MB L3
内存 LPDDR5X-8533,最多 480 GB
内存带宽 >500 GB/s(远超 DDR5 12 通道)
TDP 250 W
互联 NVLink-C2C 至 Grace 或 Hopper

Grace Hopper Superchip(GH200)

1
2
3
4
5
┌─────────────────────────────────────┐
│ Grace CPU ⇄ NVLink-C2C ⇄ Hopper GPU │
│ 72-core 900 GB/s H100/H200 │
│ LPDDR5X 480GB HBM3e 144GB │
└─────────────────────────────────────┘

CPU 和 GPU 在一个 module 上通过 NVLink-C2C(900 GB/s) 直连,比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存,对超大模型训练尤其重要。

Grace Blackwell Superchip(GB200)

下一代把 1 颗 Grace 配 2 颗 Blackwell GPU:

1
1× Grace CPU  +  2× Blackwell GPU  → 1 个 GB200 Superchip

NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。

待补充:核对 Grace 后续路线(Vera CPU 配 Rubin GPU 的进度)。

Ampere AmpereOne:纯云原生 ARM

Ampere Computing 是 AppliedMicro X-Gene 团队的延续,由前 Intel 总裁 Renee James 创立,专做 ARM 服务器 CPU 卖给二级云厂商和企业。

代次 微架构 工艺 核数 内存 量产
eMAG A72/N1 衍生 16nm 32 8×DDR4-2667 2018
Altra Neoverse N1 7nm 80 8×DDR4-3200 2020
Altra Max Neoverse N1 7nm 128 8×DDR4-3200 2021
AmpereOne 自研 Ampere 核 5nm 192 8×DDR5-5200 2023
AmpereOne M 自研 5nm 192 12×DDR5-5600 2024
AmpereOne MX/Aurora 自研 + AI 待补充 256+ 12×DDR5 2025+

AmpereOne 的特点:

  • 专为云原生设计:每核独占 L2,不带 SMT,按租户隔离友好
  • 核数密度高:192 核(vs Intel SRF 288,AMD Bergamo 128)
  • 客户:Oracle Cloud(OCI 全平台 ARM 化)、Google Cloud(部分实例)、Microsoft Azure、Hetzner、字节跳动等

AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商,是其他云厂商和企业自建 IDC 的可选方案。

待补充:AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。

国际 ARM 服务器对比

Graviton 4 Grace AmpereOne M
Neoverse V2 Neoverse V2 Ampere 自研
核数 96 72 192
内存 DDR5-5600 LPDDR5X-8533 DDR5-5600
内存带宽 ~600 GB/s >500 GB/s ~600 GB/s
主要用途 AWS 通用计算 AI 训练/推理 通用云、容器密度
销售模式 AWS 自用 NVIDIA 整机 公开销售

一张全景

graph TB
  ARM[ARMv8/v9 ISA]
  ARM --> AWS[AWS Graviton
自研, 仅自用
大规模通用云] ARM --> NV[NVIDIA Grace
自研, 配 GPU
AI 训练/推理] ARM --> AC[Ampere One
自研, 公开卖
云原生 + 企业] ARM --> KP[华为鲲鹏
自研, 中国市场
通用 + 整机] ARM --> FT[飞腾
自研, 党政市场
合规 + 安可] ARM --> MS[Microsoft Cobalt
自研 v9, Azure 自用] ARM --> GC[Google Axion
自研 v9, GCP 自用]

值得关注的是 2024 年发布的 Microsoft Cobalt 100Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号

待补充:Cobalt 100 和 Axion 在 Azure/GCP 上的实际部署占比。

ARM 服务器的现实约束

ARM 服务器并非”全方位优于 x86”,几个真实痛点:

痛点 说明
单线程绝对性能 仍稍弱于 Intel/AMD 旗舰,对老旧单线程业务不友好
AVX-512 / AMX 类指令 ARM SVE/SVE2/SME 仍在普及中,AI 推理生态弱于 Intel AMX
商业软件兼容 Oracle DB、SAP HANA 等仍以 x86 为主
生态碎片化 ARMv8、ARMv9、各家自定义扩展,需要根据具体核选编译

ARM 服务器最好的场景:云原生应用(容器、Java、Go、Python)、Web/API 服务、AI 推理(搭配 NPU/GPU)、HPC(搭配 SVE)。

小结

  • ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
  • 三个国际代表:AWS Graviton(自研自用,云通用)、NVIDIA Grace(配 GPU,AI 主战场)、AmpereOne(公开卖,云原生密度)
  • 微软 Cobalt、Google Axion 加入战局,超大规模厂全部自研 ARM 服务器 CPU
  • 兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
  • 国内(鲲鹏 / 飞腾)走自己路,但和国际 ARM 阵营在指令集层面相通

下一篇回到微观——讲 CPU 的微架构核心概念:缓存、流水线、超标量、分支预测、SMT。