HBM —— AI 时代的高带宽内存

GB200 一颗 GPU 配 192 GB 内存、带宽 8 TB/s——这种数字在 DDR 上做不出来。HBM(High Bandwidth Memory)通过 3D 堆叠 + 硅中介互联,把内存做到了”贴 GPU 而生”。本文讲 HBM 的架构、代次和供应链。

为什么 GPU 要 HBM 不要 DDR

一颗 H100 GPU:

  • 算力:FP16 ~2000 TFLOPS
  • 假设每个 FLOP 要从内存读 1 byte(最理想稀疏假设),每秒需要 2 PB 带宽
  • 真实 AI 工作负载:每 FLOP 约 0.3 byte → 600 TB/s

DRAM 现状:

  • DDR5-6400 单通道 51.2 GB/s
  • 12 通道 = 614 GB/s
  • 想堆到 600 TB/s = 12000 通道——物理上做不到

GPU 必须找一种带宽密度极高的内存方案——这就是 HBM。

HBM 的核心思想:堆叠 + 宽接口

传统 GDDR vs HBM

graph LR
  subgraph GDDR
    G1[GPU
32 个 GDDR 颗粒
每个 32 bit
约 1024 bit 数据宽] end subgraph HBMfig["HBM"] H1[GPU + HBM stack
每 stack 1024 bit
多 stack 可达 5120-8192 bit] end

GDDR 接口窄、频率高(24-32 Gbps/pin),HBM 接口超宽、频率低:

GDDR6 GDDR7 HBM3 HBM3e
单 die 数据宽 32 bit 32 bit 1024 bit 1024 bit
数据率/pin ~16 Gbps ~32 Gbps ~6.4 Gbps ~9.2 Gbps
单 stack 带宽 - - 819 GB/s 1.18 TB/s
单 stack 容量 1-2 GB 2-3 GB 24 GB 36 GB

HBM 用”超宽 + 中等频率“换”单位面积带宽 × 容量“。

物理结构:3D 堆叠 + 硅中介

1
2
3
4
5
6
7
8
9
10
11
12
13
14
┌─────────────────────────────────────────┐
│ GPU 主芯片 │
│ ┌──┐ ┌──┐ ┌──┐ ┌──┐ │
│ │HBM│ │HBM│ │HBM│ │HBM│ ← HBM stack │
│ │ │ │ │ │ │ │ │ │
│ │ │ │ │ │ │ │ │ │
│ └──┘ └──┘ └──┘ └──┘ │
└────────────────│────────────────────────┘

━━━━━━━━━━ 硅中介层 (Silicon Interposer) ━━━━━━━━━━
通过几千条短走线连接
━━━━━━━━━━ 封装基板 (Substrate) ━━━━━━━━━━━━━━━

主板焊点

关键技术:

  1. 3D 堆叠:4-8 颗 DRAM die 用 TSV(穿硅过孔)垂直互连,看起来像一个”塔”
  2. 硅中介层:把 GPU 和 HBM 焊在同一片硅上,几千条短走线让超宽接口成为可能
  3. 2.5D 封装:通常说的”2.5D”就是这个——比 PCB 多一层硅中介,但还不算真正的 3D

封装方案:

  • TSMC CoWoS(Chip on Wafer on Substrate):业界主流,H100/H200/B100/B200 都用
  • Intel EMIB:嵌入式硅桥
  • Samsung I-Cube:三星方案

CoWoS 的产能 = NVIDIA GPU 的产能 = AI 算力的产能——这是当前 AI 供应链最大瓶颈。

HBM 代次速览

代次 量产年 数据率/pin 单 stack 带宽 单 stack 容量
HBM1 2015 1 Gbps 128 GB/s 1 GB(4-Hi)
HBM2 2016 2 Gbps 256 GB/s 4-8 GB
HBM2e 2020 3.2-3.6 Gbps ~460 GB/s 8-16 GB
HBM3 2022 6.4 Gbps 819 GB/s 16-24 GB(8-Hi/12-Hi)
HBM3e 2024 9.2-9.8 Gbps ~1.2 TB/s 24-36 GB(12-Hi)
HBM4 2025-2026 8-9.6 Gbps(接口扩到 2048 bit) ~1.6-2 TB/s 36-48 GB(12-Hi/16-Hi)

待补充:HBM4 各家最终量产规格和首发产品(Rubin、Instinct MI400 等)。

HBM3 vs HBM3e

HBM3e 不是新一代,是 HBM3 的”加强版”:

  • 数据率从 6.4 → 9.2 Gbps
  • 12-Hi 堆叠让单 stack 容量从 24 GB → 36 GB
  • 应用:H200(141 GB HBM3e)、B200(192 GB HBM3e)

HBM4 的关键变化

1
2
HBM3:  1024 bit × 9.2 Gbps = 1.18 TB/s
HBM4: 2048 bit × 8-9.6 Gbps = 1.6-2.0 TB/s(接口翻倍)

接口从 1024 bit 翻倍到 2048 bit——所以频率不用涨太多就能再翻倍带宽。代价是封装更复杂、面积更大。

HBM4 还有一个变化:Base Die 可定制化。客户可以把控制器、加速逻辑做在 HBM 的 Base Die 上——AI 厂商可以”和 HBM 一起买定制 IO”。

HBM 的供应链

全球能量产 HBM 的只有三家:

厂商 当前主力 产能占比(2025 估算)
SK海力士 HBM3e(NVIDIA H200/B200) ~50%
三星 HBM3 / HBM3e(追赶中) ~35%
美光 HBM3e(2024 起小规模量产) ~15%

SK海力士是当前 HBM3e 的领头羊,80% 的 NVIDIA H200/B200 配的是海力士 HBM3e

待补充:2026 年 HBM4 各厂量产时间和良率情况。

国产 HBM 的现状

HBM 是当前国产半导体最严重的卡脖子点——比 GPU 本身、比先进制程更急迫:

  • 工艺需求:HBM 不一定要 5nm(颗粒本身可以是 1z/1α),但封装需要 CoWoS 级别的 2.5D 能力
  • 三家国际玩家都在韩美,对中国出口管制严格
  • 国内长鑫、长江存储等在 HBM 上仍处于追赶——通常说”落后两代”(即国际 HBM3e 时国内还在 HBM2e)

待补充:长鑫 HBM2/HBM2e 的最新量产情况。

国内 AI 芯片厂家(华为昇腾、寒武纪、摩尔线程等)面临的真实问题:自研 GPU 可以、但配 HBM 拿不到。变通方案:

  • 用 GDDR6/7(带宽差几倍)
  • 用 LPDDR5X(容量大但带宽小)
  • 用更多通道的 HBM2/HBM2e(落后两代)
  • 等长鑫 HBM 量产

HBM 在不同芯片上的”挂法”

graph TB
  subgraph H100["NVIDIA H100"]
    GH[H100 die] --- HB1[HBM3 16GB]
    GH --- HB2[HBM3 16GB]
    GH --- HB3[HBM3 16GB]
    GH --- HB4[HBM3 16GB]
    GH --- HB5[HBM3 16GB]
    GH --- HB6[HBM3 16GB]
  end

H100 = 1 颗 GPU + 6 颗 HBM3 stack(96/80GB 版本)。

graph TB
  subgraph B200["NVIDIA B200(双 die)"]
    B1[Blackwell die 0] --- HB1[HBM3e 24GB]
    B1 --- HB2[HBM3e 24GB]
    B1 --- HB3[HBM3e 24GB]
    B1 --- HB4[HBM3e 24GB]
    B2[Blackwell die 1] --- HB5[HBM3e 24GB]
    B2 --- HB6[HBM3e 24GB]
    B2 --- HB7[HBM3e 24GB]
    B2 --- HB8[HBM3e 24GB]
    B1 -.- B2
  end

B200 = 2 颗 die + 8 颗 HBM3e stack = 192GB。

graph TB
  subgraph MI300X["AMD Instinct MI300X"]
    GM[XCD × 8 + IO Die] --- M1[HBM3 24GB]
    GM --- M2[HBM3 24GB]
    GM --- M3[HBM3 24GB]
    GM --- M4[HBM3 24GB]
    GM --- M5[HBM3 24GB]
    GM --- M6[HBM3 24GB]
    GM --- M7[HBM3 24GB]
    GM --- M8[HBM3 24GB]
  end

MI300X = 8 颗 HBM3 = 192GB(与 B200 容量持平,比 H100 多)。

graph LR
  subgraph CPU["Grace CPU"]
    GC[Neoverse V2 × 72] --- LP[LPDDR5X 480GB]
  end
  subgraph GPU["Hopper/Blackwell GPU"]
    GH[GPU] --- HB[HBM3e/4]
  end
  CPU <-- NVLink-C2C 900 GB/s --> GPU

NVIDIA Grace 是个例外——CPU 用 LPDDR5X 而不是 HBM。原因:CPU 工作负载对延迟更敏感,LPDDR5X 在容量、功耗、价格上更平衡。

HBM 不能取代 DDR 的几个原因

带宽这么高,为什么 CPU 不上 HBM?

1. 容量上限

HBM 单 stack 24-36 GB,HBM4 也就 48 GB。一颗 CPU 挂 8 颗 HBM 也才 ~300 GB——服务器要 1-12 TB 内存做不到。

2. 价格

HBM 大约是同容量 DDR5 的 5-10 倍。1TB HBM 几乎是 1TB DDR5 的十倍价。

3. 不可拆换

HBM 是封装在一起的,坏了换不了一颗——整颗 GPU 报废。

4. 延迟差不多

HBM 带宽极高,但延迟和 DDR5 差不多(80-100 ns 量级)。CPU 工作负载延迟敏感,HBM 不一定比 DDR5 快。

5. 功耗高

HBM 单 stack 8-12 W,8 颗 stack 就 60-100 W——CPU 没法给这么多。

Intel Xeon Max(HBM CPU 的尝试)

Intel 在 Sapphire Rapids 时期推过 Xeon Max 9400 系列——CPU 自带 HBM2e。每颗 64GB HBM2e + 56 核。

应用场景:HPC(CFD、气候模拟、量子化学)——这些工作负载内存带宽吃紧。

但 Xeon Max 后续没续作——Granite Rapids 没有 HBM 版本。原因:市场需求不够大、产能优先给 NVIDIA、CPU + HBM 的 TCO 比”CPU + GPU 分工”差。

CXL 会不会替代 HBM

不会,但可以互补

  • HBM:贴芯片,超高带宽,小容量
  • CXL:通过 PCIe 扩展,中等带宽,超大容量
  • DDR:本地,平衡,主流

未来 GPU 的趋势:HBM 当一级 + CXL 内存当二级 + 主机 DRAM 当三级。NVIDIA Grace+Hopper 的 NVLink-C2C 就是类似思路。

一张总结

graph TB
  L1[CPU 寄存器/Cache
SRAM
~1 ns] L2[CPU DRAM
DDR5
80 ns / 50-600 GB/s] L3[GPU HBM
HBM3e
~80 ns / 8 TB/s] L4[CXL Memory
~200 ns / 数十 GB/s] L5[NVMe SSD
~10 μs / 14 GB/s] L1 --> L2 --> L3 --> L4 --> L5

小结

  • HBM 用”超宽 + 中频 + 3D 堆叠”换”单位面积带宽”
  • 当前主流 HBM3e 单 stack 1.2 TB/s × 36 GB,HBM4 上 2 TB/s × 48 GB
  • 三家供应:海力士、三星、美光,海力士最强
  • HBM 是当前国产 AI 最严重的卡脖子点
  • HBM 不能取代 DDR5——容量、价格、可换性都不允许
  • 未来内存层级:HBM + DDR + CXL + SSD 多级共存

下一篇讲 CXL——内存解耦时代的关键拼图。