AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU"

NVIDIA 在 AI 算力上 90%+ 的市场份额，但 AMD 不是没机会。MI300X 让 OpenAI、Meta、微软真正下了大单——这是过去十年第一次。本文讲 AMD 数据中心 GPU 的演进、与 NVIDIA 的对位、以及 ROCm 软件栈。

AMD GPU 的两条路：RDNA / CDNA

AMD 在 2020 年把 GPU 架构分成两条独立路线：

graph TB
  GCN[GCN 时代
统一架构]
  GCN --> RDNA[RDNA
Radeon 消费/工作站]
  GCN --> CDNA[CDNA
Instinct 数据中心]
  RDNA --> RDNA3[RDNA 3 / 4
RX 7000/8000
游戏/创作]
  CDNA --> CDNA1[CDNA 1
MI100]
  CDNA1 --> CDNA2[CDNA 2
MI200 系列]
  CDNA2 --> CDNA3[CDNA 3
MI300 系列]
  CDNA3 --> CDNA4[CDNA Next
MI400 系列]

CDNA 专为 HPC / AI 设计，砍掉光栅化等图形单元，把芯片面积全部留给计算和带宽。

MI100（2020，CDNA 1）


制程	TSMC 7nm
显存	32 GB HBM2，1.2 TB/s
FP64 / FP32	11.5 / 23 TFLOPS
Matrix FP16	184 TFLOPS
互联	Infinity Fabric（双向 ~340 GB/s）
TDP	300W

MI100 是 AMD 第一颗”专用数据中心 GPU”——但当时 ROCm 软件栈还很弱，市场反响平淡。

MI200 系列（2021，CDNA 2）

MI200 是 AMD 重要的拐点——首次用 chiplet 把两颗 GPU die 通过 Infinity Fabric 拼成一颗：

	MI210	MI250X
制程	6nm	6nm
die	1	2（chiplet）
显存	64 GB HBM2e	128 GB HBM2e，3.2 TB/s
FP64 Matrix	45 TFLOPS	95.7 TFLOPS
FP16 Matrix	181 TFLOPS	383 TFLOPS
互联	IF	IF
TDP	300W	560W

MI250X 装进了 Frontier 超算（橡树岭国家实验室）——美国第一台 ExaFLOP 级超算，2022 年 TOP500 第一。

但 MI200 在 AI 推理 / 训练市场反应仍不大——FP64 强但 AI 用不上。

MI300 系列（2023-2024，CDNA 3）

MI300 是 AMD 数据中心 GPU 的质的飞跃——结构上引入了多个革命性设计。

MI300X（纯 GPU 版）

	MI300X
制程	TSMC 5nm + 6nm
结构	8 颗 XCD（GPU chiplet）+ 4 颗 IO Die
显存	192 GB HBM3，5.3 TB/s
FP64 Matrix	163 TFLOPS
Matrix FP16 / BF16	1.3 PFLOPS
Matrix FP8	2.6 PFLOPS
互联	Infinity Fabric 4，单卡 7× IF 链路
TDP	750W

MI300X 的杀手锏：192 GB HBM3 —— 当时 H100 只有 80 GB。这让 MI300X 在大模型推理上有”装得下”的天然优势。

1
2
3

Llama 70B FP16 推理：
  H100 80GB：要 2 卡（KV-Cache 装不下）
  MI300X 192GB：1 卡搞定

MI300A（CPU+GPU APU）

	MI300A
结构	3 颗 CCD（Zen 4 CPU）+ 6 颗 XCD（GPU）+ HBM3
CPU 核	24 × Zen 4
GPU CU	228
显存	128 GB HBM3 统一（CPU/GPU 共享）
TDP	550W

MI300A 是首颗真正的 CPU+GPU APU——CPU 和 GPU 共享同一池 HBM3，没有”PCIe 拷贝”问题。El Capitan 超算（劳伦斯利弗莫尔，2024 年 ExaFLOP 级）用的就是 MI300A。

MI300 的 chiplet 结构

graph TB
  subgraph IOD["4 颗 IO Die（底层）"]
    IO1[IOD 1]
    IO2[IOD 2]
    IO3[IOD 3]
    IO4[IOD 4]
  end
  subgraph XCD["8 颗 XCD（GPU chiplet，顶层）"]
    X1[XCD 1] -.- IO1
    X2[XCD 2] -.- IO1
    X3[XCD 3] -.- IO2
    X4[XCD 4] -.- IO2
    X5[XCD 5] -.- IO3
    X6[XCD 6] -.- IO3
    X7[XCD 7] -.- IO4
    X8[XCD 8] -.- IO4
  end
  subgraph HBM["8 颗 HBM3 stack"]
    H1[HBM] --- IO1
    H2[HBM] --- IO1
    H3[HBM] --- IO2
    H4[HBM] --- IO2
    H5[HBM] --- IO3
    H6[HBM] --- IO3
    H7[HBM] --- IO4
    H8[HBM] --- IO4
  end

XCD 用 3D 堆叠 直接焊到 IO Die 上（hybrid bonding）——这是工艺上的尖端 demo。

MI325X（2024 末，MI300 中期改款）

	MI325X
显存	256 GB HBM3e，6 TB/s
算力	与 MI300X 同
TDP	1000W

MI325X 类似 NVIDIA H200 的定位——架构没变，靠 HBM3e 升级显存。256 GB 单卡显存仍领先 NVIDIA。

待补充：MI325X 量产铺货情况。

MI355X / MI400 系列（2025-2026）

AMD 公布的下一代路线图：

	MI355X
量产	2025
制程	TSMC 3nm
显存	288 GB HBM3e
FP4 Matrix	>10 PFLOPS
FP6/FP8	显著提升
TDP	1000W

MI400 系列（CDNA Next，2026）将首次支持 HBM4，并在集群互联上大幅强化。

待补充：MI355X / MI400 实际量产时间和详细规格。

AMD 多卡互联：Infinity Fabric

AMD 的 GPU↔GPU 互联叫 Infinity Fabric (IF)，类似 NVLink：

1 2	`MI300X 单卡 7 条 IF 链路 × ~128 GB/s = ~900 GB/s 双向 8 卡 MI300X 节点：全互联（每对 GPU 直连一条 IF）`

关键差异：AMD 没有”NVSwitch”等价物——全互联只能在 8 卡内做，再多就要走 PCIe 或外部网络。这是 AMD 集群规模上的弱点。

UALink（前一篇讲过）就是 AMD 联合多家做的”NVSwitch 替代”路线，但产品要 2025-2026 年才到。

ROCm 软件栈

graph TB
  RC[ROCm Runtime
类 CUDA Runtime]
  HIP[HIP
类 CUDA C++]
  RC --> HIP
  HIP --> RB[rocBLAS
线性代数]
  HIP --> MIO[MIOpen
类 cuDNN]
  HIP --> RCCL[RCCL
类 NCCL]
  HIP --> CK[Composable Kernel
类 CUTLASS]
  
  PT[PyTorch ROCm 后端] --> HIP
  TF[TensorFlow ROCm 后端] --> HIP
  TGI[TGI / vLLM ROCm 移植] --> HIP

ROCm 当前现状：

ROCm 6.x 已稳定，PyTorch 主线支持 MI300
大模型推理框架（vLLM、TGI、SGLang）支持 MI300 较好
训练支持仍弱于 NVIDIA——某些算子性能仅 H100 的 60-80%
对消费 RDNA 卡的支持碎片化（很多 lib 只支持 CDNA）

业界进展：

2023：MI300X PyTorch 主线，OpenAI 验证可用
2024：Meta、微软、OpenAI 开始下大单（数万卡级别）
2024：vLLM、SGLang、TGI 全部支持 MI300X
2025+：训练性能持续追赶

AMD 在推理已基本可用，训练仍在追——这与硬件无关，是 PyTorch / NCCL / 算子库 / debugger 等基础设施成熟度的差距。

NVIDIA vs AMD 对位

维度	NVIDIA H200	AMD MI300X	NVIDIA B200	AMD MI325X
显存	141 GB	192 GB	192 GB	256 GB
HBM 带宽	4.8 TB/s	5.3 TB/s	8 TB/s	6 TB/s
FP8 Tensor	2 PF	2.6 PF	4.5 PF	~3 PF
FP4 Tensor	-	-	9 PF	-
互联	NVLink 5（1.8 TB/s）	IF（~900 GB/s）	NVLink 5	IF
8 卡内全互联	经 NVSwitch	直连	经 NVSwitch	直连
软件栈	CUDA 成熟	ROCm 推理 OK，训练追赶	CUDA	ROCm
大集群（万卡）	NVL72 + IB 成熟	待 UALink	NVL72 + IB	待 UALink
TDP	700W	750W	1000W	1000W

待补充：B200 / MI325X 的详细生产数字。

AMD 在大客户里的进展

Meta：       已部署"几十万颗 MI300X"级别，主用推理
微软 Azure：  部署 MI300X，提供给 OpenAI 等
OpenAI：     2024 起用 MI300X 做部分推理
Oracle Cloud：超大规模部署 MI300X
xAI Colossus：H100 + 部分 MI300X
甲骨文 / SAP / GlobalFoundries 等也下了大单

待补充：2025-2026 年 AMD 数据中心 GPU 出货占比的最新数据。

AMD 的”3D 堆叠先发”

MI300 上的 3D V-Cache / hybrid bonding 工艺，比 NVIDIA 同期更激进。这是 AMD 在台积电封装产能上”另起一锅”的策略——避免和 NVIDIA 抢同一款 CoWoS 产能。

但 CoWoS-L / SoIC 等高端封装的产能本身在追 NVIDIA。

AMD GPU 的几个限制

虽然 MI300X 单卡指标抢眼，但作为生态后来者有几个真实痛点：

多卡集群规模有限：缺 NVSwitch 等价物，万卡集群网络拓扑设计更难
训练算子性能仍落后：FlashAttention、cuDNN 这类深度优化算子，AMD 的等价物（Composable Kernel、MIOpen）性能差 20-40%
debugger / profiler 不如 NVIDIA：Nsight Compute / Nsight Systems 等价物（rocprof / Omniperf）功能弱
Driver 稳定性：早期版本崩溃多，2024 年起改善
业务团队覆盖：NVIDIA 全球技术支持远超 AMD

这些不是硬件问题，是生态成熟度的问题——只能时间慢慢补。

一些实用命令

# 等价 nvidia-smi
rocm-smi
rocm-smi --showtoponuma   # 拓扑

# AMD GPU 信息
rocminfo                   # 类似 nvidia-smi -q
clinfo                     # OpenCL 视角

# 查看 PCIe 带宽
sudo lspci -vvv -s <BDF>

# 跑 PyTorch 验证
python -c "import torch; print(torch.cuda.is_available())"
# 在 ROCm 上 cuda.is_available() 返回 True（HIP 兼容）

# 跑 RCCL 测试
mpirun -np 8 ./build/all_reduce_perf -b 1G -e 16G -f 2 -g 1

选 NVIDIA 还是 AMD

graph TD
  Q1[业务规模?]
  Q1 -- "万卡训练 GPT 量级" --> N1[NVIDIA
NVL72 + IB 唯一成熟]
  Q1 -- "千卡训练" --> N2[NVIDIA 优先
AMD 可选]
  Q1 -- "推理为主" --> N3[AMD MI300X 性价比强
显存优势]
  Q1 -- "HPC + AI" --> N4[AMD MI300A
El Capitan 路线]
  Q1 -- "供应链多元化" --> N5[必须 AMD
NVIDIA 容易缺货]

实际企业策略：主用 NVIDIA + 试点 AMD 推理——是当前主流。

小结

AMD CDNA 系列专为数据中心，从 MI100 一路到 MI400
MI300X 的杀手锏是 192 GB 显存，在推理装大模型上有优势
MI300A 是 CPU+GPU APU，El Capitan 超算的核心
Infinity Fabric 是 NVLink 等价物，但缺 NVSwitch 限制集群规模
ROCm 推理已经成熟，训练仍在追 CUDA
实际市场：NVIDIA 训练占绝对优势，AMD 在推理逐步起量

下一篇讲 Intel Gaudi、Google TPU 以及其他 AI 加速器——更广的”非主流”路线。

05-GPU与AI

#AMD #MI300 #ROCm #CDNA

Intel Gaudi、Google TPU 与其他 AI 加速器上一篇

NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU" 下一篇