AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU"

NVIDIA 在 AI 算力上 90%+ 的市场份额,但 AMD 不是没机会。MI300X 让 OpenAI、Meta、微软真正下了大单——这是过去十年第一次。本文讲 AMD 数据中心 GPU 的演进、与 NVIDIA 的对位、以及 ROCm 软件栈。

AMD GPU 的两条路:RDNA / CDNA

AMD 在 2020 年把 GPU 架构分成两条独立路线:

graph TB
  GCN[GCN 时代
统一架构] GCN --> RDNA[RDNA
Radeon 消费/工作站] GCN --> CDNA[CDNA
Instinct 数据中心] RDNA --> RDNA3[RDNA 3 / 4
RX 7000/8000
游戏/创作] CDNA --> CDNA1[CDNA 1
MI100] CDNA1 --> CDNA2[CDNA 2
MI200 系列] CDNA2 --> CDNA3[CDNA 3
MI300 系列] CDNA3 --> CDNA4[CDNA Next
MI400 系列]

CDNA 专为 HPC / AI 设计,砍掉光栅化等图形单元,把芯片面积全部留给计算和带宽。

MI100(2020,CDNA 1)

制程 TSMC 7nm
显存 32 GB HBM2,1.2 TB/s
FP64 / FP32 11.5 / 23 TFLOPS
Matrix FP16 184 TFLOPS
互联 Infinity Fabric(双向 ~340 GB/s)
TDP 300W

MI100 是 AMD 第一颗”专用数据中心 GPU”——但当时 ROCm 软件栈还很弱,市场反响平淡。

MI200 系列(2021,CDNA 2)

MI200 是 AMD 重要的拐点——首次用 chiplet 把两颗 GPU die 通过 Infinity Fabric 拼成一颗:

MI210 MI250X
制程 6nm 6nm
die 1 2(chiplet)
显存 64 GB HBM2e 128 GB HBM2e,3.2 TB/s
FP64 Matrix 45 TFLOPS 95.7 TFLOPS
FP16 Matrix 181 TFLOPS 383 TFLOPS
互联 IF IF
TDP 300W 560W

MI250X 装进了 Frontier 超算(橡树岭国家实验室)——美国第一台 ExaFLOP 级超算,2022 年 TOP500 第一。

但 MI200 在 AI 推理 / 训练市场反应仍不大——FP64 强但 AI 用不上。

MI300 系列(2023-2024,CDNA 3)

MI300 是 AMD 数据中心 GPU 的质的飞跃——结构上引入了多个革命性设计。

MI300X(纯 GPU 版)

MI300X
制程 TSMC 5nm + 6nm
结构 8 颗 XCD(GPU chiplet)+ 4 颗 IO Die
显存 192 GB HBM3,5.3 TB/s
FP64 Matrix 163 TFLOPS
Matrix FP16 / BF16 1.3 PFLOPS
Matrix FP8 2.6 PFLOPS
互联 Infinity Fabric 4,单卡 7× IF 链路
TDP 750W

MI300X 的杀手锏:192 GB HBM3 —— 当时 H100 只有 80 GB。这让 MI300X 在大模型推理上有”装得下”的天然优势。

1
2
3
Llama 70B FP16 推理:
H100 80GB:要 2 卡(KV-Cache 装不下)
MI300X 192GB:1 卡搞定

MI300A(CPU+GPU APU)

MI300A
结构 3 颗 CCD(Zen 4 CPU)+ 6 颗 XCD(GPU)+ HBM3
CPU 核 24 × Zen 4
GPU CU 228
显存 128 GB HBM3 统一(CPU/GPU 共享)
TDP 550W

MI300A 是首颗真正的 CPU+GPU APU——CPU 和 GPU 共享同一池 HBM3,没有”PCIe 拷贝”问题。El Capitan 超算(劳伦斯利弗莫尔,2024 年 ExaFLOP 级)用的就是 MI300A。

MI300 的 chiplet 结构

graph TB
  subgraph IOD["4 颗 IO Die(底层)"]
    IO1[IOD 1]
    IO2[IOD 2]
    IO3[IOD 3]
    IO4[IOD 4]
  end
  subgraph XCD["8 颗 XCD(GPU chiplet,顶层)"]
    X1[XCD 1] -.- IO1
    X2[XCD 2] -.- IO1
    X3[XCD 3] -.- IO2
    X4[XCD 4] -.- IO2
    X5[XCD 5] -.- IO3
    X6[XCD 6] -.- IO3
    X7[XCD 7] -.- IO4
    X8[XCD 8] -.- IO4
  end
  subgraph HBM["8 颗 HBM3 stack"]
    H1[HBM] --- IO1
    H2[HBM] --- IO1
    H3[HBM] --- IO2
    H4[HBM] --- IO2
    H5[HBM] --- IO3
    H6[HBM] --- IO3
    H7[HBM] --- IO4
    H8[HBM] --- IO4
  end

XCD 用 3D 堆叠 直接焊到 IO Die 上(hybrid bonding)——这是工艺上的尖端 demo。

MI325X(2024 末,MI300 中期改款)

MI325X
显存 256 GB HBM3e,6 TB/s
算力 与 MI300X 同
TDP 1000W

MI325X 类似 NVIDIA H200 的定位——架构没变,靠 HBM3e 升级显存。256 GB 单卡显存仍领先 NVIDIA

待补充:MI325X 量产铺货情况。

MI355X / MI400 系列(2025-2026)

AMD 公布的下一代路线图:

MI355X
量产 2025
制程 TSMC 3nm
显存 288 GB HBM3e
FP4 Matrix >10 PFLOPS
FP6/FP8 显著提升
TDP 1000W

MI400 系列(CDNA Next,2026)将首次支持 HBM4,并在集群互联上大幅强化。

待补充:MI355X / MI400 实际量产时间和详细规格。

AMD 多卡互联:Infinity Fabric

AMD 的 GPU↔GPU 互联叫 Infinity Fabric (IF),类似 NVLink:

1
2
MI300X 单卡 7 条 IF 链路 × ~128 GB/s = ~900 GB/s 双向
8 卡 MI300X 节点: 全互联(每对 GPU 直连一条 IF)

关键差异:AMD 没有”NVSwitch”等价物——全互联只能在 8 卡内做,再多就要走 PCIe 或外部网络。这是 AMD 集群规模上的弱点。

UALink(前一篇讲过)就是 AMD 联合多家做的”NVSwitch 替代”路线,但产品要 2025-2026 年才到。

ROCm 软件栈

graph TB
  RC[ROCm Runtime
类 CUDA Runtime] HIP[HIP
类 CUDA C++] RC --> HIP HIP --> RB[rocBLAS
线性代数] HIP --> MIO[MIOpen
类 cuDNN] HIP --> RCCL[RCCL
类 NCCL] HIP --> CK[Composable Kernel
类 CUTLASS] PT[PyTorch ROCm 后端] --> HIP TF[TensorFlow ROCm 后端] --> HIP TGI[TGI / vLLM ROCm 移植] --> HIP

ROCm 当前现状

  • ROCm 6.x 已稳定,PyTorch 主线支持 MI300
  • 大模型推理框架(vLLM、TGI、SGLang)支持 MI300 较好
  • 训练支持仍弱于 NVIDIA——某些算子性能仅 H100 的 60-80%
  • 对消费 RDNA 卡的支持碎片化(很多 lib 只支持 CDNA)

业界进展:

1
2
3
4
2023:MI300X PyTorch 主线,OpenAI 验证可用
2024:Meta、微软、OpenAI 开始下大单(数万卡级别)
2024:vLLM、SGLang、TGI 全部支持 MI300X
2025+:训练性能持续追赶

AMD 在推理已基本可用,训练仍在追——这与硬件无关,是 PyTorch / NCCL / 算子库 / debugger 等基础设施成熟度的差距。

NVIDIA vs AMD 对位

维度 NVIDIA H200 AMD MI300X NVIDIA B200 AMD MI325X
显存 141 GB 192 GB 192 GB 256 GB
HBM 带宽 4.8 TB/s 5.3 TB/s 8 TB/s 6 TB/s
FP8 Tensor 2 PF 2.6 PF 4.5 PF ~3 PF
FP4 Tensor - - 9 PF -
互联 NVLink 5(1.8 TB/s) IF(~900 GB/s) NVLink 5 IF
8 卡内全互联 经 NVSwitch 直连 经 NVSwitch 直连
软件栈 CUDA 成熟 ROCm 推理 OK,训练追赶 CUDA ROCm
大集群(万卡) NVL72 + IB 成熟 待 UALink NVL72 + IB 待 UALink
TDP 700W 750W 1000W 1000W

待补充:B200 / MI325X 的详细生产数字。

AMD 在大客户里的进展

1
2
3
4
5
6
Meta:       已部署"几十万颗 MI300X"级别,主用推理
微软 Azure: 部署 MI300X,提供给 OpenAI 等
OpenAI: 2024 起用 MI300X 做部分推理
Oracle Cloud:超大规模部署 MI300X
xAI Colossus:H100 + 部分 MI300X
甲骨文 / SAP / GlobalFoundries 等也下了大单

待补充:2025-2026 年 AMD 数据中心 GPU 出货占比的最新数据。

AMD 的”3D 堆叠先发”

MI300 上的 3D V-Cache / hybrid bonding 工艺,比 NVIDIA 同期更激进。这是 AMD 在台积电封装产能上”另起一锅”的策略——避免和 NVIDIA 抢同一款 CoWoS 产能。

但 CoWoS-L / SoIC 等高端封装的产能本身在追 NVIDIA。

AMD GPU 的几个限制

虽然 MI300X 单卡指标抢眼,但作为生态后来者有几个真实痛点:

  1. 多卡集群规模有限:缺 NVSwitch 等价物,万卡集群网络拓扑设计更难
  2. 训练算子性能仍落后:FlashAttention、cuDNN 这类深度优化算子,AMD 的等价物(Composable Kernel、MIOpen)性能差 20-40%
  3. debugger / profiler 不如 NVIDIA:Nsight Compute / Nsight Systems 等价物(rocprof / Omniperf)功能弱
  4. Driver 稳定性:早期版本崩溃多,2024 年起改善
  5. 业务团队覆盖:NVIDIA 全球技术支持远超 AMD

这些不是硬件问题,是生态成熟度的问题——只能时间慢慢补

一些实用命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 等价 nvidia-smi
rocm-smi
rocm-smi --showtoponuma # 拓扑

# AMD GPU 信息
rocminfo # 类似 nvidia-smi -q
clinfo # OpenCL 视角

# 查看 PCIe 带宽
sudo lspci -vvv -s <BDF>

# 跑 PyTorch 验证
python -c "import torch; print(torch.cuda.is_available())"
# 在 ROCm 上 cuda.is_available() 返回 True(HIP 兼容)

# 跑 RCCL 测试
mpirun -np 8 ./build/all_reduce_perf -b 1G -e 16G -f 2 -g 1

选 NVIDIA 还是 AMD

graph TD
  Q1[业务规模?]
  Q1 -- "万卡训练 GPT 量级" --> N1[NVIDIA
NVL72 + IB 唯一成熟] Q1 -- "千卡训练" --> N2[NVIDIA 优先
AMD 可选] Q1 -- "推理为主" --> N3[AMD MI300X 性价比强
显存优势] Q1 -- "HPC + AI" --> N4[AMD MI300A
El Capitan 路线] Q1 -- "供应链多元化" --> N5[必须 AMD
NVIDIA 容易缺货]

实际企业策略:主用 NVIDIA + 试点 AMD 推理——是当前主流。

小结

  • AMD CDNA 系列专为数据中心,从 MI100 一路到 MI400
  • MI300X 的杀手锏是 192 GB 显存,在推理装大模型上有优势
  • MI300A 是 CPU+GPU APU,El Capitan 超算的核心
  • Infinity Fabric 是 NVLink 等价物,但缺 NVSwitch 限制集群规模
  • ROCm 推理已经成熟,训练仍在追 CUDA
  • 实际市场:NVIDIA 训练占绝对优势,AMD 在推理逐步起量

下一篇讲 Intel Gaudi、Google TPU 以及其他 AI 加速器——更广的”非主流”路线。