HBM —— AI 时代的高带宽内存
GB200 一颗 GPU 配 192 GB 内存、带宽 8 TB/s——这种数字在 DDR 上做不出来。HBM(High Bandwidth Memory)通过 3D 堆叠 + 硅中介互联,把内存做到了”贴 GPU 而生”。本文讲 HBM 的架构、代次和供应链。
为什么 GPU 要 HBM 不要 DDR
一颗 H100 GPU:
- 算力:FP16 ~2000 TFLOPS
- 假设每个 FLOP 要从内存读 1 byte(最理想稀疏假设),每秒需要 2 PB 带宽
- 真实 AI 工作负载:每 FLOP 约 0.3 byte → 600 TB/s
DRAM 现状:
- DDR5-6400 单通道 51.2 GB/s
- 12 通道 = 614 GB/s
- 想堆到 600 TB/s = 12000 通道——物理上做不到
GPU 必须找一种带宽密度极高的内存方案——这就是 HBM。
HBM 的核心思想:堆叠 + 宽接口
传统 GDDR vs HBM
graph LR
subgraph GDDR
G1[GPU
32 个 GDDR 颗粒
每个 32 bit
约 1024 bit 数据宽]
end
subgraph HBMfig["HBM"]
H1[GPU + HBM stack
每 stack 1024 bit
多 stack 可达 5120-8192 bit]
end
GDDR 接口窄、频率高(24-32 Gbps/pin),HBM 接口超宽、频率低:
| GDDR6 | GDDR7 | HBM3 | HBM3e | |
|---|---|---|---|---|
| 单 die 数据宽 | 32 bit | 32 bit | 1024 bit | 1024 bit |
| 数据率/pin | ~16 Gbps | ~32 Gbps | ~6.4 Gbps | ~9.2 Gbps |
| 单 stack 带宽 | - | - | 819 GB/s | 1.18 TB/s |
| 单 stack 容量 | 1-2 GB | 2-3 GB | 24 GB | 36 GB |
HBM 用”超宽 + 中等频率“换”单位面积带宽 × 容量“。
物理结构:3D 堆叠 + 硅中介
1 | |
关键技术:
- 3D 堆叠:4-8 颗 DRAM die 用 TSV(穿硅过孔)垂直互连,看起来像一个”塔”
- 硅中介层:把 GPU 和 HBM 焊在同一片硅上,几千条短走线让超宽接口成为可能
- 2.5D 封装:通常说的”2.5D”就是这个——比 PCB 多一层硅中介,但还不算真正的 3D
封装方案:
- TSMC CoWoS(Chip on Wafer on Substrate):业界主流,H100/H200/B100/B200 都用
- Intel EMIB:嵌入式硅桥
- Samsung I-Cube:三星方案
CoWoS 的产能 = NVIDIA GPU 的产能 = AI 算力的产能——这是当前 AI 供应链最大瓶颈。
HBM 代次速览
| 代次 | 量产年 | 数据率/pin | 单 stack 带宽 | 单 stack 容量 |
|---|---|---|---|---|
| HBM1 | 2015 | 1 Gbps | 128 GB/s | 1 GB(4-Hi) |
| HBM2 | 2016 | 2 Gbps | 256 GB/s | 4-8 GB |
| HBM2e | 2020 | 3.2-3.6 Gbps | ~460 GB/s | 8-16 GB |
| HBM3 | 2022 | 6.4 Gbps | 819 GB/s | 16-24 GB(8-Hi/12-Hi) |
| HBM3e | 2024 | 9.2-9.8 Gbps | ~1.2 TB/s | 24-36 GB(12-Hi) |
| HBM4 | 2025-2026 | 8-9.6 Gbps(接口扩到 2048 bit) | ~1.6-2 TB/s | 36-48 GB(12-Hi/16-Hi) |
待补充:HBM4 各家最终量产规格和首发产品(Rubin、Instinct MI400 等)。
HBM3 vs HBM3e
HBM3e 不是新一代,是 HBM3 的”加强版”:
- 数据率从 6.4 → 9.2 Gbps
- 12-Hi 堆叠让单 stack 容量从 24 GB → 36 GB
- 应用:H200(141 GB HBM3e)、B200(192 GB HBM3e)
HBM4 的关键变化
1 | |
接口从 1024 bit 翻倍到 2048 bit——所以频率不用涨太多就能再翻倍带宽。代价是封装更复杂、面积更大。
HBM4 还有一个变化:Base Die 可定制化。客户可以把控制器、加速逻辑做在 HBM 的 Base Die 上——AI 厂商可以”和 HBM 一起买定制 IO”。
HBM 的供应链
全球能量产 HBM 的只有三家:
| 厂商 | 当前主力 | 产能占比(2025 估算) |
|---|---|---|
| SK海力士 | HBM3e(NVIDIA H200/B200) | ~50% |
| 三星 | HBM3 / HBM3e(追赶中) | ~35% |
| 美光 | HBM3e(2024 起小规模量产) | ~15% |
SK海力士是当前 HBM3e 的领头羊,80% 的 NVIDIA H200/B200 配的是海力士 HBM3e。
待补充:2026 年 HBM4 各厂量产时间和良率情况。
国产 HBM 的现状
HBM 是当前国产半导体最严重的卡脖子点——比 GPU 本身、比先进制程更急迫:
- 工艺需求:HBM 不一定要 5nm(颗粒本身可以是 1z/1α),但封装需要 CoWoS 级别的 2.5D 能力
- 三家国际玩家都在韩美,对中国出口管制严格
- 国内长鑫、长江存储等在 HBM 上仍处于追赶——通常说”落后两代”(即国际 HBM3e 时国内还在 HBM2e)
待补充:长鑫 HBM2/HBM2e 的最新量产情况。
国内 AI 芯片厂家(华为昇腾、寒武纪、摩尔线程等)面临的真实问题:自研 GPU 可以、但配 HBM 拿不到。变通方案:
- 用 GDDR6/7(带宽差几倍)
- 用 LPDDR5X(容量大但带宽小)
- 用更多通道的 HBM2/HBM2e(落后两代)
- 等长鑫 HBM 量产
HBM 在不同芯片上的”挂法”
graph TB
subgraph H100["NVIDIA H100"]
GH[H100 die] --- HB1[HBM3 16GB]
GH --- HB2[HBM3 16GB]
GH --- HB3[HBM3 16GB]
GH --- HB4[HBM3 16GB]
GH --- HB5[HBM3 16GB]
GH --- HB6[HBM3 16GB]
end
H100 = 1 颗 GPU + 6 颗 HBM3 stack(96/80GB 版本)。
graph TB
subgraph B200["NVIDIA B200(双 die)"]
B1[Blackwell die 0] --- HB1[HBM3e 24GB]
B1 --- HB2[HBM3e 24GB]
B1 --- HB3[HBM3e 24GB]
B1 --- HB4[HBM3e 24GB]
B2[Blackwell die 1] --- HB5[HBM3e 24GB]
B2 --- HB6[HBM3e 24GB]
B2 --- HB7[HBM3e 24GB]
B2 --- HB8[HBM3e 24GB]
B1 -.- B2
end
B200 = 2 颗 die + 8 颗 HBM3e stack = 192GB。
graph TB
subgraph MI300X["AMD Instinct MI300X"]
GM[XCD × 8 + IO Die] --- M1[HBM3 24GB]
GM --- M2[HBM3 24GB]
GM --- M3[HBM3 24GB]
GM --- M4[HBM3 24GB]
GM --- M5[HBM3 24GB]
GM --- M6[HBM3 24GB]
GM --- M7[HBM3 24GB]
GM --- M8[HBM3 24GB]
end
MI300X = 8 颗 HBM3 = 192GB(与 B200 容量持平,比 H100 多)。
graph LR
subgraph CPU["Grace CPU"]
GC[Neoverse V2 × 72] --- LP[LPDDR5X 480GB]
end
subgraph GPU["Hopper/Blackwell GPU"]
GH[GPU] --- HB[HBM3e/4]
end
CPU <-- NVLink-C2C 900 GB/s --> GPU
NVIDIA Grace 是个例外——CPU 用 LPDDR5X 而不是 HBM。原因:CPU 工作负载对延迟更敏感,LPDDR5X 在容量、功耗、价格上更平衡。
HBM 不能取代 DDR 的几个原因
带宽这么高,为什么 CPU 不上 HBM?
1. 容量上限
HBM 单 stack 24-36 GB,HBM4 也就 48 GB。一颗 CPU 挂 8 颗 HBM 也才 ~300 GB——服务器要 1-12 TB 内存做不到。
2. 价格
HBM 大约是同容量 DDR5 的 5-10 倍。1TB HBM 几乎是 1TB DDR5 的十倍价。
3. 不可拆换
HBM 是封装在一起的,坏了换不了一颗——整颗 GPU 报废。
4. 延迟差不多
HBM 带宽极高,但延迟和 DDR5 差不多(80-100 ns 量级)。CPU 工作负载延迟敏感,HBM 不一定比 DDR5 快。
5. 功耗高
HBM 单 stack 8-12 W,8 颗 stack 就 60-100 W——CPU 没法给这么多。
Intel Xeon Max(HBM CPU 的尝试)
Intel 在 Sapphire Rapids 时期推过 Xeon Max 9400 系列——CPU 自带 HBM2e。每颗 64GB HBM2e + 56 核。
应用场景:HPC(CFD、气候模拟、量子化学)——这些工作负载内存带宽吃紧。
但 Xeon Max 后续没续作——Granite Rapids 没有 HBM 版本。原因:市场需求不够大、产能优先给 NVIDIA、CPU + HBM 的 TCO 比”CPU + GPU 分工”差。
CXL 会不会替代 HBM
不会,但可以互补:
- HBM:贴芯片,超高带宽,小容量
- CXL:通过 PCIe 扩展,中等带宽,超大容量
- DDR:本地,平衡,主流
未来 GPU 的趋势:HBM 当一级 + CXL 内存当二级 + 主机 DRAM 当三级。NVIDIA Grace+Hopper 的 NVLink-C2C 就是类似思路。
一张总结
graph TB L1[CPU 寄存器/Cache
SRAM
~1 ns] L2[CPU DRAM
DDR5
80 ns / 50-600 GB/s] L3[GPU HBM
HBM3e
~80 ns / 8 TB/s] L4[CXL Memory
~200 ns / 数十 GB/s] L5[NVMe SSD
~10 μs / 14 GB/s] L1 --> L2 --> L3 --> L4 --> L5
小结
- HBM 用”超宽 + 中频 + 3D 堆叠”换”单位面积带宽”
- 当前主流 HBM3e 单 stack 1.2 TB/s × 36 GB,HBM4 上 2 TB/s × 48 GB
- 三家供应:海力士、三星、美光,海力士最强
- HBM 是当前国产 AI 最严重的卡脖子点
- HBM 不能取代 DDR5——容量、价格、可换性都不允许
- 未来内存层级:HBM + DDR + CXL + SSD 多级共存
下一篇讲 CXL——内存解耦时代的关键拼图。