ARM 服务器 CPU —— Graviton、Grace、AmpereOne

ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来，到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。

ARM 服务器的”逆袭逻辑”

为什么 ARM 在 2018 年之后突然能做服务器？三个变化：

graph LR
  V1[ARMv8 64位
2011 规范] --> S[ARM 服务器可行]
  V2[云原生 + 容器
x86 锁定弱化] --> S
  V3[超大规模云厂自研
规模摊薄成本] --> S
  S --> ECON[经济性成立]

指令集成熟：ARMv8 64 位规范完整，可以跑现代 Linux 发行版
生态去 x86 化：容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
超大规模厂商：自己一次买几百万颗芯片，自研定制比买通用芯片更划算

第三点是关键。只有能消化几百万颗芯片销量的厂商，才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞，而不是普通 OEM 渠道。

AWS Graviton：第一个跑起来的

亚马逊 2015 年收购 Annapurna Labs，2018 年发布 Graviton 1，让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。

代次	核心	工艺	核数	量产年份	实例类型
Graviton 1	Cortex-A72	16nm	16	2018	A1（验证性产品）
Graviton 2	Neoverse N1	7nm	64	2019	M6g/C6g/R6g 大规模铺开
Graviton 3	Neoverse V1	5nm	64	2022	M7g/C7g/R7g，DDR5
Graviton 3E	Neoverse V1	5nm	64	2022	HPC 优化
Graviton 4	Neoverse V2	4nm	96	2024	R8g/M8g/C8g

Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%，AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。

到 2024 年，AWS 自家新部署的服务器超过 50% 是 Graviton。

NVIDIA Grace：为 AI 而生

NVIDIA 不是传统 CPU 厂商，但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的：

CPU↔GPU 高带宽互联（PCIe 5.0 x16 双向 128 GB/s 不够用）
CPU 侧 LPDDR 大容量低延迟
统一内存地址空间

为此 NVIDIA 自研了 Grace CPU，并把它跟 GPU 集成到一颗 module 里。

Grace CPU 单芯片

项	规格
核心	72 × Neoverse V2
缓存	117 MB L3
内存	LPDDR5X-8533，最多 480 GB
内存带宽	>500 GB/s（远超 DDR5 12 通道）
TDP	250 W
互联	NVLink-C2C 至 Grace 或 Hopper

Grace Hopper Superchip（GH200）

┌─────────────────────────────────────┐
│  Grace CPU      ⇄ NVLink-C2C ⇄    Hopper GPU  │
│  72-core        900 GB/s          H100/H200    │
│  LPDDR5X 480GB                     HBM3e 144GB │
└─────────────────────────────────────┘

CPU 和 GPU 在一个 module 上通过 NVLink-C2C（900 GB/s） 直连，比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存，对超大模型训练尤其重要。

Grace Blackwell Superchip（GB200）

下一代把 1 颗 Grace 配 2 颗 Blackwell GPU：

1	`1× Grace CPU + 2× Blackwell GPU → 1 个 GB200 Superchip`

NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。

待补充：核对 Grace 后续路线（Vera CPU 配 Rubin GPU 的进度）。

Ampere AmpereOne：纯云原生 ARM

Ampere Computing 是 AppliedMicro X-Gene 团队的延续，由前 Intel 总裁 Renee James 创立，专做 ARM 服务器 CPU 卖给二级云厂商和企业。

代次	微架构	工艺	核数	内存	量产
eMAG	A72/N1 衍生	16nm	32	8×DDR4-2667	2018
Altra	Neoverse N1	7nm	80	8×DDR4-3200	2020
Altra Max	Neoverse N1	7nm	128	8×DDR4-3200	2021
AmpereOne	自研 Ampere 核	5nm	192	8×DDR5-5200	2023
AmpereOne M	自研	5nm	192	12×DDR5-5600	2024
AmpereOne MX/Aurora	自研 + AI	待补充	256+	12×DDR5	2025+

AmpereOne 的特点：

专为云原生设计：每核独占 L2，不带 SMT，按租户隔离友好
核数密度高：192 核（vs Intel SRF 288，AMD Bergamo 128）
客户：Oracle Cloud（OCI 全平台 ARM 化）、Google Cloud（部分实例）、Microsoft Azure、Hetzner、字节跳动等

AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商，是其他云厂商和企业自建 IDC 的可选方案。

待补充：AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。

国际 ARM 服务器对比

	Graviton 4	Grace	AmpereOne M
核	Neoverse V2	Neoverse V2	Ampere 自研
核数	96	72	192
内存	DDR5-5600	LPDDR5X-8533	DDR5-5600
内存带宽	~600 GB/s	>500 GB/s	~600 GB/s
主要用途	AWS 通用计算	AI 训练/推理	通用云、容器密度
销售模式	AWS 自用	NVIDIA 整机	公开销售

一张全景

graph TB
  ARM[ARMv8/v9 ISA]
  ARM --> AWS[AWS Graviton
自研, 仅自用
大规模通用云]
  ARM --> NV[NVIDIA Grace
自研, 配 GPU
AI 训练/推理]
  ARM --> AC[Ampere One
自研, 公开卖
云原生 + 企业]
  ARM --> KP[华为鲲鹏
自研, 中国市场
通用 + 整机]
  ARM --> FT[飞腾
自研, 党政市场
合规 + 安可]
  ARM --> MS[Microsoft Cobalt
自研 v9, Azure 自用]
  ARM --> GC[Google Axion
自研 v9, GCP 自用]

值得关注的是 2024 年发布的 Microsoft Cobalt 100 和 Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号。

待补充：Cobalt 100 和 Axion 在 Azure/GCP 上的实际部署占比。

ARM 服务器的现实约束

ARM 服务器并非”全方位优于 x86”，几个真实痛点：

痛点	说明
单线程绝对性能	仍稍弱于 Intel/AMD 旗舰，对老旧单线程业务不友好
AVX-512 / AMX 类指令	ARM SVE/SVE2/SME 仍在普及中，AI 推理生态弱于 Intel AMX
商业软件兼容	Oracle DB、SAP HANA 等仍以 x86 为主
生态碎片化	ARMv8、ARMv9、各家自定义扩展，需要根据具体核选编译

ARM 服务器最好的场景：云原生应用（容器、Java、Go、Python）、Web/API 服务、AI 推理（搭配 NPU/GPU）、HPC（搭配 SVE）。

小结

ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
三个国际代表：AWS Graviton（自研自用，云通用）、NVIDIA Grace（配 GPU，AI 主战场）、AmpereOne（公开卖，云原生密度）
微软 Cobalt、Google Axion 加入战局，超大规模厂全部自研 ARM 服务器 CPU
兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
国内（鲲鹏 / 飞腾）走自己路，但和国际 ARM 阵营在指令集层面相通

下一篇回到微观——讲 CPU 的微架构核心概念：缓存、流水线、超标量、分支预测、SMT。

02-CPU

#ARM #Graviton #Grace #AmpereOne

CPU 微架构核心概念 —— 缓存、流水线、超标量、SMT 上一篇

国产服务器 CPU 全景 —— 鲲鹏、飞腾、龙芯、海光、兆芯、申威下一篇