服务器散热 —— 风冷、液冷与热密度极限

服务器的”另一份隐形规格”是散热。同样一颗 H100 GPU，风冷机箱里只能跑 700W、液冷机箱里能跑 750W，集群级算力差距就是这么拉开的。本篇梳理服务器散热从风冷到液冷的演进。

为什么散热越来越重要

回顾 CPU 和 GPU 的 TDP 演进，每代都在涨：

年份	旗舰 CPU TDP	旗舰 GPU TDP
2017	205 W	300 W（V100）
2020	270 W	400 W（A100 SXM）
2023	350 W	700 W（H100 SXM）
2024	500 W+（Granite Rapids/EPYC Turin）	1000 W（B200）
2025	待补充	1200 W+（B300/Rubin）

整机功耗也跟着涨：

通用 2U 双路：~1.5 kW
4U 8 卡 GPU 训练机：8–12 kW
NVIDIA GB200 NVL72 整机柜：约 120 kW

1 kW 的服务器风冷无压力，10 kW 的服务器风冷极限挣扎，120 kW 的机柜必须液冷。 这就是趋势的根源。

数据中心温控的三层结构

graph TB
  CHILLER[冷源
冷水机组/自然冷却塔]
  CHILLER --> CRAH[空调机组
CRAC/CRAH/列间空调]
  CRAH --> AIRFLOW[气流组织
冷热通道/封闭通道]
  AIRFLOW --> SVR[服务器散热
风冷/液冷]
  SVR -.废热.-> CRAH
  CRAH -.热水.-> CHILLER

三层都在往”更精确、更靠近热源”的方向演进：

冷源：从机械制冷为主，转向自然冷却（北方冬季外气直接换热）
空调机组：从机房级（CRAC，制冷整个房间）→ 列间空调（机柜列旁）→ 后门换热器（贴在机柜后门）
服务器散热：从风冷 → 液冷

服务器风冷

风扇是核心

服务器风扇的关键指标：

指标	含义	服务器选择
风量（CFM）	单位时间通过空气量	高
风压（mmH₂O）	克服阻力的能力	高（机箱内阻很大）
转速（RPM）	通常 8000–25000 RPM	BMC 动态调节
噪音（dBA）	满载常 70+ dB	不优先

服务器机箱很”拥挤”——内存、PCIe 卡、硬盘背板、线缆布局都阻碍气流。所以服务器风扇追求高静压而非桌面级的”低噪音、高风量”。

风道设计

服务器风冷的灵魂是风道——保证冷空气只走它该走的路径。

graph LR
  COLD[冷通道
前进风] --> HDD[硬盘背板]
  HDD --> FAN[风扇墙]
  FAN --> CPU[CPU/GPU/内存]
  CPU --> EXP[PCIe 卡]
  EXP --> HOT[热通道
后排风]

机箱内部用**导风罩（air shroud）**强行约束气流，把冷风精准送到 CPU 散热器。多 GPU 服务器还会给每张 GPU 单独设导风罩。

风冷的极限

风冷可处理热密度的物理极限大约：

CPU/GPU 单芯片：~700 W（H100 SXM 风冷版的天花板）
2U 机架服务器整机：~5 kW（特殊设计可冲到 8 kW）
42U 标准机柜：传统 5–10 kW，优化后 15–20 kW

超过这个量级，风冷的代价是：风扇功耗占整机 10%+、噪声超过 80 dB、风扇本身的发热成为新问题。这时液冷就值得了。

液冷：三种形态

液冷的本质是”用比空气热容大几千倍的液体直接接触/贴近热源”。按部署方式分三种：冷板、浸没、喷淋。

1. 冷板式（Direct-to-Chip Cold Plate）

最主流的液冷形态。

┌─────────────────────────┐
│  CPU/GPU                │
│  ┌──────────┐           │
│  │ 冷板     │ ← 冷却液入  │
│  └──────────┘ → 冷却液出  │
│       ↑                 │
│       铜底板贴芯片       │
└─────────────────────────┘

工作原理：

在 CPU/GPU 上贴一块带流道的金属冷板（替代原来的散热器）
冷却液（去离子水或 PG25）在流道中循环，把热量带走
出水送到机柜外的 CDU（Coolant Distribution Unit）二次换热

特点：

半液冷：CPU/GPU 用液冷，内存/SSD/电源仍是风冷
改动相对小，可在现有机房改造
单机柜可承载 30–60 kW 热负荷
主流 AI 服务器（H100/H200/B200/GB200）的标配

2. 浸没式（Immersion）

整机箱泡进绝缘液体里。

按液体相态分两类：

单相浸没：液体不沸腾，靠强制循环带走热量
两相浸没：液体在芯片表面沸腾，蒸汽到机箱顶部冷凝，循环利用相变潜热

特点：

全液冷：所有发热部件都泡在液体里，散热效率最高
单机柜可达 100 kW+
没有风扇，安静；服务器形态需要重新设计（机箱开放、横置）
维护时要把整箱液体处理掉，运维复杂、上线成本高
主要用于超算和少数大型互联网公司

3. 喷淋式（Spray）

冷却液通过喷嘴直接喷在芯片表面，气化或液化后回流。

特点：

散热效率介于冷板和浸没之间
系统复杂度高、生态薄弱
应用最少，主要在国内少数试点项目

三者对比

维度	冷板	单相浸没	两相浸没	喷淋
散热效率	★★★	★★★★	★★★★★	★★★★
改造成本	低	高	极高	高
运维复杂度	中	高	极高	高
单机柜热负荷	30–60 kW	60–100 kW	100 kW+	50–80 kW
量产成熟度	高	中	低	低
当前部署占比	绝大多数	少量	极少	极少

PUE：数据中心的绿色账本

PUE（Power Usage Effectiveness）= 数据中心总耗电 / IT 设备耗电。理想值是 1.0（所有电都给 IT 用，没有空调风扇浪费）。

数据中心类型	典型 PUE
老旧机房	2.0+
国内一般水平	1.5
现代风冷数据中心	1.3–1.4
风液混合	1.15–1.25
全液冷 + 自然冷却	1.05–1.15

中国”东数西算”和能耗双控政策对 PUE 有硬性要求（如新建大型 IDC ≤ 1.25），液冷因此从”可选”变成”刚需”。

待补充：补一份不同省份/园区对 PUE 的最新政策门槛。

怎么选

简化的选型逻辑：

graph TD
  Q1{单机柜热密度?}
  Q1 -- "<15 kW" --> A1[传统风冷 + 冷热通道封闭]
  Q1 -- "15-30 kW" --> A2[风冷 + 后门换热器]
  Q1 -- "30-60 kW" --> A3[冷板液冷]
  Q1 -- ">60 kW" --> A4[浸没液冷]

对绝大多数企业用户：冷板液冷 + 风液混合机房 是当前性价比最高的选择，既能压住 AI 服务器的功耗，又不需要把机房推倒重建。

小结

服务器散热从风冷到液冷的转折点是单芯片 700W、单机 10kW
冷板液冷是当前 AI 服务器的事实标准
浸没液冷散热极限最高，但运维和生态尚未成熟
PUE 政策正在反向推动液冷加速渗透

下一篇讲服务器供电——同样面临着从 12V 到 48V 的一场静悄悄的革命。

01-服务器通用

#散热 #液冷 #风冷 #数据中心

服务器供电 —— UPS / HVDC / CRPS / 48V 直供上一篇

服务器分类 —— 从外形到负载的多维划分下一篇