ARM 服务器 CPU —— Graviton、Grace、AmpereOne
ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来,到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。
ARM 服务器的”逆袭逻辑”
为什么 ARM 在 2018 年之后突然能做服务器?三个变化:
graph LR V1[ARMv8 64位
2011 规范] --> S[ARM 服务器可行] V2[云原生 + 容器
x86 锁定弱化] --> S V3[超大规模云厂自研
规模摊薄成本] --> S S --> ECON[经济性成立]
- 指令集成熟:ARMv8 64 位规范完整,可以跑现代 Linux 发行版
- 生态去 x86 化:容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
- 超大规模厂商:自己一次买几百万颗芯片,自研定制比买通用芯片更划算
第三点是关键。只有能消化几百万颗芯片销量的厂商,才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞,而不是普通 OEM 渠道。
AWS Graviton:第一个跑起来的
亚马逊 2015 年收购 Annapurna Labs,2018 年发布 Graviton 1,让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。
| 代次 | 核心 | 工艺 | 核数 | 量产年份 | 实例类型 |
|---|---|---|---|---|---|
| Graviton 1 | Cortex-A72 | 16nm | 16 | 2018 | A1(验证性产品) |
| Graviton 2 | Neoverse N1 | 7nm | 64 | 2019 | M6g/C6g/R6g 大规模铺开 |
| Graviton 3 | Neoverse V1 | 5nm | 64 | 2022 | M7g/C7g/R7g,DDR5 |
| Graviton 3E | Neoverse V1 | 5nm | 64 | 2022 | HPC 优化 |
| Graviton 4 | Neoverse V2 | 4nm | 96 | 2024 | R8g/M8g/C8g |
Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%,AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。
到 2024 年,AWS 自家新部署的服务器超过 50% 是 Graviton。
NVIDIA Grace:为 AI 而生
NVIDIA 不是传统 CPU 厂商,但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的:
- CPU↔GPU 高带宽互联(PCIe 5.0 x16 双向 128 GB/s 不够用)
- CPU 侧 LPDDR 大容量低延迟
- 统一内存地址空间
为此 NVIDIA 自研了 Grace CPU,并把它跟 GPU 集成到一颗 module 里。
Grace CPU 单芯片
| 项 | 规格 |
|---|---|
| 核心 | 72 × Neoverse V2 |
| 缓存 | 117 MB L3 |
| 内存 | LPDDR5X-8533,最多 480 GB |
| 内存带宽 | >500 GB/s(远超 DDR5 12 通道) |
| TDP | 250 W |
| 互联 | NVLink-C2C 至 Grace 或 Hopper |
Grace Hopper Superchip(GH200)
1 | |
CPU 和 GPU 在一个 module 上通过 NVLink-C2C(900 GB/s) 直连,比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存,对超大模型训练尤其重要。
Grace Blackwell Superchip(GB200)
下一代把 1 颗 Grace 配 2 颗 Blackwell GPU:
1 | |
NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。
待补充:核对 Grace 后续路线(Vera CPU 配 Rubin GPU 的进度)。
Ampere AmpereOne:纯云原生 ARM
Ampere Computing 是 AppliedMicro X-Gene 团队的延续,由前 Intel 总裁 Renee James 创立,专做 ARM 服务器 CPU 卖给二级云厂商和企业。
| 代次 | 微架构 | 工艺 | 核数 | 内存 | 量产 |
|---|---|---|---|---|---|
| eMAG | A72/N1 衍生 | 16nm | 32 | 8×DDR4-2667 | 2018 |
| Altra | Neoverse N1 | 7nm | 80 | 8×DDR4-3200 | 2020 |
| Altra Max | Neoverse N1 | 7nm | 128 | 8×DDR4-3200 | 2021 |
| AmpereOne | 自研 Ampere 核 | 5nm | 192 | 8×DDR5-5200 | 2023 |
| AmpereOne M | 自研 | 5nm | 192 | 12×DDR5-5600 | 2024 |
| AmpereOne MX/Aurora | 自研 + AI | 待补充 | 256+ | 12×DDR5 | 2025+ |
AmpereOne 的特点:
- 专为云原生设计:每核独占 L2,不带 SMT,按租户隔离友好
- 核数密度高:192 核(vs Intel SRF 288,AMD Bergamo 128)
- 客户:Oracle Cloud(OCI 全平台 ARM 化)、Google Cloud(部分实例)、Microsoft Azure、Hetzner、字节跳动等
AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商,是其他云厂商和企业自建 IDC 的可选方案。
待补充:AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。
国际 ARM 服务器对比
| Graviton 4 | Grace | AmpereOne M | |
|---|---|---|---|
| 核 | Neoverse V2 | Neoverse V2 | Ampere 自研 |
| 核数 | 96 | 72 | 192 |
| 内存 | DDR5-5600 | LPDDR5X-8533 | DDR5-5600 |
| 内存带宽 | ~600 GB/s | >500 GB/s | ~600 GB/s |
| 主要用途 | AWS 通用计算 | AI 训练/推理 | 通用云、容器密度 |
| 销售模式 | AWS 自用 | NVIDIA 整机 | 公开销售 |
一张全景
graph TB ARM[ARMv8/v9 ISA] ARM --> AWS[AWS Graviton
自研, 仅自用
大规模通用云] ARM --> NV[NVIDIA Grace
自研, 配 GPU
AI 训练/推理] ARM --> AC[Ampere One
自研, 公开卖
云原生 + 企业] ARM --> KP[华为鲲鹏
自研, 中国市场
通用 + 整机] ARM --> FT[飞腾
自研, 党政市场
合规 + 安可] ARM --> MS[Microsoft Cobalt
自研 v9, Azure 自用] ARM --> GC[Google Axion
自研 v9, GCP 自用]
值得关注的是 2024 年发布的 Microsoft Cobalt 100 和 Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号。
待补充:Cobalt 100 和 Axion 在 Azure/GCP 上的实际部署占比。
ARM 服务器的现实约束
ARM 服务器并非”全方位优于 x86”,几个真实痛点:
| 痛点 | 说明 |
|---|---|
| 单线程绝对性能 | 仍稍弱于 Intel/AMD 旗舰,对老旧单线程业务不友好 |
| AVX-512 / AMX 类指令 | ARM SVE/SVE2/SME 仍在普及中,AI 推理生态弱于 Intel AMX |
| 商业软件兼容 | Oracle DB、SAP HANA 等仍以 x86 为主 |
| 生态碎片化 | ARMv8、ARMv9、各家自定义扩展,需要根据具体核选编译 |
ARM 服务器最好的场景:云原生应用(容器、Java、Go、Python)、Web/API 服务、AI 推理(搭配 NPU/GPU)、HPC(搭配 SVE)。
小结
- ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
- 三个国际代表:AWS Graviton(自研自用,云通用)、NVIDIA Grace(配 GPU,AI 主战场)、AmpereOne(公开卖,云原生密度)
- 微软 Cobalt、Google Axion 加入战局,超大规模厂全部自研 ARM 服务器 CPU
- 兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
- 国内(鲲鹏 / 飞腾)走自己路,但和国际 ARM 阵营在指令集层面相通
下一篇回到微观——讲 CPU 的微架构核心概念:缓存、流水线、超标量、分支预测、SMT。