HBM —— AI 时代的高带宽内存

GB200 一颗 GPU 配 192 GB 内存、带宽 8 TB/s——这种数字在 DDR 上做不出来。HBM（High Bandwidth Memory）通过 3D 堆叠 + 硅中介互联，把内存做到了”贴 GPU 而生”。本文讲 HBM 的架构、代次和供应链。

为什么 GPU 要 HBM 不要 DDR

一颗 H100 GPU：

算力：FP16 ~2000 TFLOPS
假设每个 FLOP 要从内存读 1 byte（最理想稀疏假设），每秒需要 2 PB 带宽
真实 AI 工作负载：每 FLOP 约 0.3 byte → 600 TB/s

DRAM 现状：

DDR5-6400 单通道 51.2 GB/s
12 通道 = 614 GB/s
想堆到 600 TB/s = 12000 通道——物理上做不到

GPU 必须找一种带宽密度极高的内存方案——这就是 HBM。

HBM 的核心思想：堆叠 + 宽接口

传统 GDDR vs HBM

graph LR
  subgraph GDDR
    G1[GPU
32 个 GDDR 颗粒
每个 32 bit
约 1024 bit 数据宽]
  end
  subgraph HBMfig["HBM"]
    H1[GPU + HBM stack
每 stack 1024 bit
多 stack 可达 5120-8192 bit]
  end

GDDR 接口窄、频率高（24-32 Gbps/pin），HBM 接口超宽、频率低：

	GDDR6	GDDR7	HBM3	HBM3e
单 die 数据宽	32 bit	32 bit	1024 bit	1024 bit
数据率/pin	~16 Gbps	~32 Gbps	~6.4 Gbps	~9.2 Gbps
单 stack 带宽	-	-	819 GB/s	1.18 TB/s
单 stack 容量	1-2 GB	2-3 GB	24 GB	36 GB

HBM 用”超宽 + 中等频率“换”单位面积带宽 × 容量“。

物理结构：3D 堆叠 + 硅中介

┌─────────────────────────────────────────┐
│             GPU 主芯片                    │
│      ┌──┐  ┌──┐  ┌──┐  ┌──┐            │
│      │HBM│  │HBM│  │HBM│  │HBM│  ←  HBM stack │
│      │  │  │  │  │  │  │  │            │
│      │  │  │  │  │  │  │  │            │
│      └──┘  └──┘  └──┘  └──┘            │
└────────────────│────────────────────────┘
                 ▼
━━━━━━━━━━ 硅中介层 (Silicon Interposer) ━━━━━━━━━━
            通过几千条短走线连接
━━━━━━━━━━ 封装基板 (Substrate) ━━━━━━━━━━━━━━━
                       ▼
                   主板焊点

关键技术：

3D 堆叠：4-8 颗 DRAM die 用 TSV（穿硅过孔）垂直互连，看起来像一个”塔”
硅中介层：把 GPU 和 HBM 焊在同一片硅上，几千条短走线让超宽接口成为可能
2.5D 封装：通常说的”2.5D”就是这个——比 PCB 多一层硅中介，但还不算真正的 3D

封装方案：

TSMC CoWoS（Chip on Wafer on Substrate）：业界主流，H100/H200/B100/B200 都用
Intel EMIB：嵌入式硅桥
Samsung I-Cube：三星方案

CoWoS 的产能 = NVIDIA GPU 的产能 = AI 算力的产能——这是当前 AI 供应链最大瓶颈。

HBM 代次速览

代次	量产年	数据率/pin	单 stack 带宽	单 stack 容量
HBM1	2015	1 Gbps	128 GB/s	1 GB（4-Hi）
HBM2	2016	2 Gbps	256 GB/s	4-8 GB
HBM2e	2020	3.2-3.6 Gbps	~460 GB/s	8-16 GB
HBM3	2022	6.4 Gbps	819 GB/s	16-24 GB（8-Hi/12-Hi）
HBM3e	2024	9.2-9.8 Gbps	~1.2 TB/s	24-36 GB（12-Hi）
HBM4	2025-2026	8-9.6 Gbps（接口扩到 2048 bit）	~1.6-2 TB/s	36-48 GB（12-Hi/16-Hi）

待补充：HBM4 各家最终量产规格和首发产品（Rubin、Instinct MI400 等）。

HBM3 vs HBM3e

HBM3e 不是新一代，是 HBM3 的”加强版”：

数据率从 6.4 → 9.2 Gbps
12-Hi 堆叠让单 stack 容量从 24 GB → 36 GB
应用：H200（141 GB HBM3e）、B200（192 GB HBM3e）

HBM4 的关键变化

1 2	`HBM3: 1024 bit × 9.2 Gbps = 1.18 TB/s HBM4: 2048 bit × 8-9.6 Gbps = 1.6-2.0 TB/s（接口翻倍）`

接口从 1024 bit 翻倍到 2048 bit——所以频率不用涨太多就能再翻倍带宽。代价是封装更复杂、面积更大。

HBM4 还有一个变化：Base Die 可定制化。客户可以把控制器、加速逻辑做在 HBM 的 Base Die 上——AI 厂商可以”和 HBM 一起买定制 IO”。

HBM 的供应链

全球能量产 HBM 的只有三家：

厂商	当前主力	产能占比（2025 估算）
SK海力士	HBM3e（NVIDIA H200/B200）	~50%
三星	HBM3 / HBM3e（追赶中）	~35%
美光	HBM3e（2024 起小规模量产）	~15%

SK海力士是当前 HBM3e 的领头羊，80% 的 NVIDIA H200/B200 配的是海力士 HBM3e。

待补充：2026 年 HBM4 各厂量产时间和良率情况。

国产 HBM 的现状

HBM 是当前国产半导体最严重的卡脖子点——比 GPU 本身、比先进制程更急迫：

工艺需求：HBM 不一定要 5nm（颗粒本身可以是 1z/1α），但封装需要 CoWoS 级别的 2.5D 能力
三家国际玩家都在韩美，对中国出口管制严格
国内长鑫、长江存储等在 HBM 上仍处于追赶——通常说”落后两代”（即国际 HBM3e 时国内还在 HBM2e）

待补充：长鑫 HBM2/HBM2e 的最新量产情况。

国内 AI 芯片厂家（华为昇腾、寒武纪、摩尔线程等）面临的真实问题：自研 GPU 可以、但配 HBM 拿不到。变通方案：

用 GDDR6/7（带宽差几倍）
用 LPDDR5X（容量大但带宽小）
用更多通道的 HBM2/HBM2e（落后两代）
等长鑫 HBM 量产

HBM 在不同芯片上的”挂法”

graph TB
  subgraph H100["NVIDIA H100"]
    GH[H100 die] --- HB1[HBM3 16GB]
    GH --- HB2[HBM3 16GB]
    GH --- HB3[HBM3 16GB]
    GH --- HB4[HBM3 16GB]
    GH --- HB5[HBM3 16GB]
    GH --- HB6[HBM3 16GB]
  end

H100 = 1 颗 GPU + 6 颗 HBM3 stack（96/80GB 版本）。

graph TB
  subgraph B200["NVIDIA B200（双 die）"]
    B1[Blackwell die 0] --- HB1[HBM3e 24GB]
    B1 --- HB2[HBM3e 24GB]
    B1 --- HB3[HBM3e 24GB]
    B1 --- HB4[HBM3e 24GB]
    B2[Blackwell die 1] --- HB5[HBM3e 24GB]
    B2 --- HB6[HBM3e 24GB]
    B2 --- HB7[HBM3e 24GB]
    B2 --- HB8[HBM3e 24GB]
    B1 -.- B2
  end

B200 = 2 颗 die + 8 颗 HBM3e stack = 192GB。

graph TB
  subgraph MI300X["AMD Instinct MI300X"]
    GM[XCD × 8 + IO Die] --- M1[HBM3 24GB]
    GM --- M2[HBM3 24GB]
    GM --- M3[HBM3 24GB]
    GM --- M4[HBM3 24GB]
    GM --- M5[HBM3 24GB]
    GM --- M6[HBM3 24GB]
    GM --- M7[HBM3 24GB]
    GM --- M8[HBM3 24GB]
  end

MI300X = 8 颗 HBM3 = 192GB（与 B200 容量持平，比 H100 多）。

graph LR
  subgraph CPU["Grace CPU"]
    GC[Neoverse V2 × 72] --- LP[LPDDR5X 480GB]
  end
  subgraph GPU["Hopper/Blackwell GPU"]
    GH[GPU] --- HB[HBM3e/4]
  end
  CPU <-- NVLink-C2C 900 GB/s --> GPU

NVIDIA Grace 是个例外——CPU 用 LPDDR5X 而不是 HBM。原因：CPU 工作负载对延迟更敏感，LPDDR5X 在容量、功耗、价格上更平衡。

HBM 不能取代 DDR 的几个原因

带宽这么高，为什么 CPU 不上 HBM？

1. 容量上限

HBM 单 stack 24-36 GB，HBM4 也就 48 GB。一颗 CPU 挂 8 颗 HBM 也才 ~300 GB——服务器要 1-12 TB 内存做不到。

2. 价格

HBM 大约是同容量 DDR5 的 5-10 倍。1TB HBM 几乎是 1TB DDR5 的十倍价。

3. 不可拆换

HBM 是封装在一起的，坏了换不了一颗——整颗 GPU 报废。

4. 延迟差不多

HBM 带宽极高，但延迟和 DDR5 差不多（80-100 ns 量级）。CPU 工作负载延迟敏感，HBM 不一定比 DDR5 快。

5. 功耗高

HBM 单 stack 8-12 W，8 颗 stack 就 60-100 W——CPU 没法给这么多。

Intel Xeon Max（HBM CPU 的尝试）

Intel 在 Sapphire Rapids 时期推过 Xeon Max 9400 系列——CPU 自带 HBM2e。每颗 64GB HBM2e + 56 核。

应用场景：HPC（CFD、气候模拟、量子化学）——这些工作负载内存带宽吃紧。

但 Xeon Max 后续没续作——Granite Rapids 没有 HBM 版本。原因：市场需求不够大、产能优先给 NVIDIA、CPU + HBM 的 TCO 比”CPU + GPU 分工”差。

CXL 会不会替代 HBM

不会，但可以互补：

HBM：贴芯片，超高带宽，小容量
CXL：通过 PCIe 扩展，中等带宽，超大容量
DDR：本地，平衡，主流

未来 GPU 的趋势：HBM 当一级 + CXL 内存当二级 + 主机 DRAM 当三级。NVIDIA Grace+Hopper 的 NVLink-C2C 就是类似思路。

一张总结

graph TB
  L1[CPU 寄存器/Cache
SRAM
~1 ns]
  L2[CPU DRAM
DDR5
80 ns / 50-600 GB/s]
  L3[GPU HBM
HBM3e
~80 ns / 8 TB/s]
  L4[CXL Memory
~200 ns / 数十 GB/s]
  L5[NVMe SSD
~10 μs / 14 GB/s]
  L1 --> L2 --> L3 --> L4 --> L5

小结

HBM 用”超宽 + 中频 + 3D 堆叠”换”单位面积带宽”
当前主流 HBM3e 单 stack 1.2 TB/s × 36 GB，HBM4 上 2 TB/s × 48 GB
三家供应：海力士、三星、美光，海力士最强
HBM 是当前国产 AI 最严重的卡脖子点
HBM 不能取代 DDR5——容量、价格、可换性都不允许
未来内存层级：HBM + DDR + CXL + SSD 多级共存

下一篇讲 CXL——内存解耦时代的关键拼图。

03-内存

#HBM #HBM3e #HBM4 #GPU 内存

CXL —— 内存解耦的关键拼图上一篇

持久内存的兴衰 —— NVDIMM 与 Optane 的故事下一篇