AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU"
NVIDIA 在 AI 算力上 90%+ 的市场份额,但 AMD 不是没机会。MI300X 让 OpenAI、Meta、微软真正下了大单——这是过去十年第一次。本文讲 AMD 数据中心 GPU 的演进、与 NVIDIA 的对位、以及 ROCm 软件栈。
AMD GPU 的两条路:RDNA / CDNA
AMD 在 2020 年把 GPU 架构分成两条独立路线:
graph TB GCN[GCN 时代
统一架构] GCN --> RDNA[RDNA
Radeon 消费/工作站] GCN --> CDNA[CDNA
Instinct 数据中心] RDNA --> RDNA3[RDNA 3 / 4
RX 7000/8000
游戏/创作] CDNA --> CDNA1[CDNA 1
MI100] CDNA1 --> CDNA2[CDNA 2
MI200 系列] CDNA2 --> CDNA3[CDNA 3
MI300 系列] CDNA3 --> CDNA4[CDNA Next
MI400 系列]
CDNA 专为 HPC / AI 设计,砍掉光栅化等图形单元,把芯片面积全部留给计算和带宽。
MI100(2020,CDNA 1)
| 制程 | TSMC 7nm |
| 显存 | 32 GB HBM2,1.2 TB/s |
| FP64 / FP32 | 11.5 / 23 TFLOPS |
| Matrix FP16 | 184 TFLOPS |
| 互联 | Infinity Fabric(双向 ~340 GB/s) |
| TDP | 300W |
MI100 是 AMD 第一颗”专用数据中心 GPU”——但当时 ROCm 软件栈还很弱,市场反响平淡。
MI200 系列(2021,CDNA 2)
MI200 是 AMD 重要的拐点——首次用 chiplet 把两颗 GPU die 通过 Infinity Fabric 拼成一颗:
| MI210 | MI250X | |
|---|---|---|
| 制程 | 6nm | 6nm |
| die | 1 | 2(chiplet) |
| 显存 | 64 GB HBM2e | 128 GB HBM2e,3.2 TB/s |
| FP64 Matrix | 45 TFLOPS | 95.7 TFLOPS |
| FP16 Matrix | 181 TFLOPS | 383 TFLOPS |
| 互联 | IF | IF |
| TDP | 300W | 560W |
MI250X 装进了 Frontier 超算(橡树岭国家实验室)——美国第一台 ExaFLOP 级超算,2022 年 TOP500 第一。
但 MI200 在 AI 推理 / 训练市场反应仍不大——FP64 强但 AI 用不上。
MI300 系列(2023-2024,CDNA 3)
MI300 是 AMD 数据中心 GPU 的质的飞跃——结构上引入了多个革命性设计。
MI300X(纯 GPU 版)
| MI300X | |
|---|---|
| 制程 | TSMC 5nm + 6nm |
| 结构 | 8 颗 XCD(GPU chiplet)+ 4 颗 IO Die |
| 显存 | 192 GB HBM3,5.3 TB/s |
| FP64 Matrix | 163 TFLOPS |
| Matrix FP16 / BF16 | 1.3 PFLOPS |
| Matrix FP8 | 2.6 PFLOPS |
| 互联 | Infinity Fabric 4,单卡 7× IF 链路 |
| TDP | 750W |
MI300X 的杀手锏:192 GB HBM3 —— 当时 H100 只有 80 GB。这让 MI300X 在大模型推理上有”装得下”的天然优势。
1 | |
MI300A(CPU+GPU APU)
| MI300A | |
|---|---|
| 结构 | 3 颗 CCD(Zen 4 CPU)+ 6 颗 XCD(GPU)+ HBM3 |
| CPU 核 | 24 × Zen 4 |
| GPU CU | 228 |
| 显存 | 128 GB HBM3 统一(CPU/GPU 共享) |
| TDP | 550W |
MI300A 是首颗真正的 CPU+GPU APU——CPU 和 GPU 共享同一池 HBM3,没有”PCIe 拷贝”问题。El Capitan 超算(劳伦斯利弗莫尔,2024 年 ExaFLOP 级)用的就是 MI300A。
MI300 的 chiplet 结构
graph TB
subgraph IOD["4 颗 IO Die(底层)"]
IO1[IOD 1]
IO2[IOD 2]
IO3[IOD 3]
IO4[IOD 4]
end
subgraph XCD["8 颗 XCD(GPU chiplet,顶层)"]
X1[XCD 1] -.- IO1
X2[XCD 2] -.- IO1
X3[XCD 3] -.- IO2
X4[XCD 4] -.- IO2
X5[XCD 5] -.- IO3
X6[XCD 6] -.- IO3
X7[XCD 7] -.- IO4
X8[XCD 8] -.- IO4
end
subgraph HBM["8 颗 HBM3 stack"]
H1[HBM] --- IO1
H2[HBM] --- IO1
H3[HBM] --- IO2
H4[HBM] --- IO2
H5[HBM] --- IO3
H6[HBM] --- IO3
H7[HBM] --- IO4
H8[HBM] --- IO4
end
XCD 用 3D 堆叠 直接焊到 IO Die 上(hybrid bonding)——这是工艺上的尖端 demo。
MI325X(2024 末,MI300 中期改款)
| MI325X | |
|---|---|
| 显存 | 256 GB HBM3e,6 TB/s |
| 算力 | 与 MI300X 同 |
| TDP | 1000W |
MI325X 类似 NVIDIA H200 的定位——架构没变,靠 HBM3e 升级显存。256 GB 单卡显存仍领先 NVIDIA。
待补充:MI325X 量产铺货情况。
MI355X / MI400 系列(2025-2026)
AMD 公布的下一代路线图:
| MI355X | |
|---|---|
| 量产 | 2025 |
| 制程 | TSMC 3nm |
| 显存 | 288 GB HBM3e |
| FP4 Matrix | >10 PFLOPS |
| FP6/FP8 | 显著提升 |
| TDP | 1000W |
MI400 系列(CDNA Next,2026)将首次支持 HBM4,并在集群互联上大幅强化。
待补充:MI355X / MI400 实际量产时间和详细规格。
AMD 多卡互联:Infinity Fabric
AMD 的 GPU↔GPU 互联叫 Infinity Fabric (IF),类似 NVLink:
1 | |
关键差异:AMD 没有”NVSwitch”等价物——全互联只能在 8 卡内做,再多就要走 PCIe 或外部网络。这是 AMD 集群规模上的弱点。
UALink(前一篇讲过)就是 AMD 联合多家做的”NVSwitch 替代”路线,但产品要 2025-2026 年才到。
ROCm 软件栈
graph TB RC[ROCm Runtime
类 CUDA Runtime] HIP[HIP
类 CUDA C++] RC --> HIP HIP --> RB[rocBLAS
线性代数] HIP --> MIO[MIOpen
类 cuDNN] HIP --> RCCL[RCCL
类 NCCL] HIP --> CK[Composable Kernel
类 CUTLASS] PT[PyTorch ROCm 后端] --> HIP TF[TensorFlow ROCm 后端] --> HIP TGI[TGI / vLLM ROCm 移植] --> HIP
ROCm 当前现状:
- ROCm 6.x 已稳定,PyTorch 主线支持 MI300
- 大模型推理框架(vLLM、TGI、SGLang)支持 MI300 较好
- 训练支持仍弱于 NVIDIA——某些算子性能仅 H100 的 60-80%
- 对消费 RDNA 卡的支持碎片化(很多 lib 只支持 CDNA)
业界进展:
1 | |
AMD 在推理已基本可用,训练仍在追——这与硬件无关,是 PyTorch / NCCL / 算子库 / debugger 等基础设施成熟度的差距。
NVIDIA vs AMD 对位
| 维度 | NVIDIA H200 | AMD MI300X | NVIDIA B200 | AMD MI325X |
|---|---|---|---|---|
| 显存 | 141 GB | 192 GB | 192 GB | 256 GB |
| HBM 带宽 | 4.8 TB/s | 5.3 TB/s | 8 TB/s | 6 TB/s |
| FP8 Tensor | 2 PF | 2.6 PF | 4.5 PF | ~3 PF |
| FP4 Tensor | - | - | 9 PF | - |
| 互联 | NVLink 5(1.8 TB/s) | IF(~900 GB/s) | NVLink 5 | IF |
| 8 卡内全互联 | 经 NVSwitch | 直连 | 经 NVSwitch | 直连 |
| 软件栈 | CUDA 成熟 | ROCm 推理 OK,训练追赶 | CUDA | ROCm |
| 大集群(万卡) | NVL72 + IB 成熟 | 待 UALink | NVL72 + IB | 待 UALink |
| TDP | 700W | 750W | 1000W | 1000W |
待补充:B200 / MI325X 的详细生产数字。
AMD 在大客户里的进展
1 | |
待补充:2025-2026 年 AMD 数据中心 GPU 出货占比的最新数据。
AMD 的”3D 堆叠先发”
MI300 上的 3D V-Cache / hybrid bonding 工艺,比 NVIDIA 同期更激进。这是 AMD 在台积电封装产能上”另起一锅”的策略——避免和 NVIDIA 抢同一款 CoWoS 产能。
但 CoWoS-L / SoIC 等高端封装的产能本身在追 NVIDIA。
AMD GPU 的几个限制
虽然 MI300X 单卡指标抢眼,但作为生态后来者有几个真实痛点:
- 多卡集群规模有限:缺 NVSwitch 等价物,万卡集群网络拓扑设计更难
- 训练算子性能仍落后:FlashAttention、cuDNN 这类深度优化算子,AMD 的等价物(Composable Kernel、MIOpen)性能差 20-40%
- debugger / profiler 不如 NVIDIA:Nsight Compute / Nsight Systems 等价物(rocprof / Omniperf)功能弱
- Driver 稳定性:早期版本崩溃多,2024 年起改善
- 业务团队覆盖:NVIDIA 全球技术支持远超 AMD
这些不是硬件问题,是生态成熟度的问题——只能时间慢慢补。
一些实用命令
1 | |
选 NVIDIA 还是 AMD
graph TD Q1[业务规模?] Q1 -- "万卡训练 GPT 量级" --> N1[NVIDIA
NVL72 + IB 唯一成熟] Q1 -- "千卡训练" --> N2[NVIDIA 优先
AMD 可选] Q1 -- "推理为主" --> N3[AMD MI300X 性价比强
显存优势] Q1 -- "HPC + AI" --> N4[AMD MI300A
El Capitan 路线] Q1 -- "供应链多元化" --> N5[必须 AMD
NVIDIA 容易缺货]
实际企业策略:主用 NVIDIA + 试点 AMD 推理——是当前主流。
小结
- AMD CDNA 系列专为数据中心,从 MI100 一路到 MI400
- MI300X 的杀手锏是 192 GB 显存,在推理装大模型上有优势
- MI300A 是 CPU+GPU APU,El Capitan 超算的核心
- Infinity Fabric 是 NVLink 等价物,但缺 NVSwitch 限制集群规模
- ROCm 推理已经成熟,训练仍在追 CUDA
- 实际市场:NVIDIA 训练占绝对优势,AMD 在推理逐步起量
下一篇讲 Intel Gaudi、Google TPU 以及其他 AI 加速器——更广的”非主流”路线。