服务器供电 —— UPS / HVDC / CRPS / 48V 直供

CPU 核心电压只有 0.8V 左右,但市电进来是 220V/380V 交流。从市电到芯片的几百毫伏,中间要经过 UPS/HVDC、PSU、VRM 三道关。每一段的效率损失都直接体现在电费和 PUE 上。本篇讲服务器和数据中心的供电体系。

一条完整的供电链

graph LR
  GRID[市电
10 kV / 380 V AC] --> ATS[双路切换 ATS] ATS --> UPS[UPS / HVDC] UPS --> PDU[机柜 PDU] PDU --> PSU[服务器 PSU
12V/48V DC] PSU --> VRM[VRM 多相调压] VRM --> CHIP[CPU/GPU/DRAM
0.8-1.2 V DC]

每一级都伴随能量损耗。这条链上的每一个转换点,都在被工程优化。

数据中心一级供电:UPS vs HVDC

传统 UPS

UPS(Uninterruptible Power Supply)是数据中心最经典的方案:

1
市电 AC → 整流(AC→DC) → 电池 / 电池旁路 → 逆变(DC→AC) → 服务器 PSU

特点:

  • 多次 AC/DC 转换,每次约 3-5% 损耗
  • 整体效率约 90-94%
  • 兼容性好——服务器侧仍是 AC 输入,所有传统 PSU 都能用
  • 维护成熟、生态完整

高压直流 HVDC

HVDC(High Voltage Direct Current)是国内(特别是阿里、腾讯)大规模推广的方案:

1
市电 AC → 整流(AC→DC,~240V/336V) → 电池组 → 服务器 PSU(DC 输入)

特点:

  • 省一级 DC→AC 逆变,整体效率可达 96%+
  • 电池直接挂在直流母线上,故障切换为零(无切换瞬态)
  • 需要服务器 PSU 支持 DC 输入(绝大多数服务器 CRPS PSU 兼容 240V DC
  • 国标常见 240V/336V 两档
维度 UPS HVDC
转换次数 2 次 (AC→DC→AC) 1 次 (AC→DC)
整体效率 90–94% 95–97%
切换瞬态 有(毫秒级)
兼容性 通用 需 PSU 支持
部署规模 全球主流 国内大型互联网厂商

待补充:核对 HVDC 在不同省份的最新部署占比和电压标准(240V/336V/400V)。

机柜级供电:PDU 和母线槽

机柜里把电从 UPS/HVDC 引到每台服务器的角色,由 PDU(Power Distribution Unit)承担。常见形态:

  • 基本 PDU:插座 + 总开关
  • 计量 PDU(Metered):带电流/功率显示
  • 智能 PDU(Switched / Monitored):每个插座可远程开关、监控

整机柜方案进一步用**铜母线槽(busbar)**替代 PDU,节点直接插上母线,节省空间和线缆。OCP 和天蝎都用这种方式。

服务器电源 PSU

CRPS:服务器电源的事实标准

CRPS(Common Redundant Power Supply) 是 Intel 主导的服务器电源外形规范:

  • 统一外形:73.5 × 185.5 mm(1U)等几种标准尺寸
  • 统一接口:金手指连主板,支持热插拔
  • 统一控制协议:PMBus,BMC 可读取电压/电流/温度/历史
  • 冗余支持:N+1 / N+N

CRPS 的好处是多家厂商可互换:Delta、台达、长城、艾默生(Vertiv)、光宝……OEM 不被单一供应商绑定。

功率等级

功率档 典型应用
550 W 1U 单路通用
800 W 1U/2U 通用
1300 W 2U 双路通用主流
1600 W 2U 双路高配
2000–2200 W 4 卡 GPU 服务器
2700–3000 W 8 卡 GPU 训练机
3600 W+ 高密 AI / 整机柜节点

80 PLUS 认证

PSU 的效率认证体系。等级越高,转换损耗越低:

等级 50% 负载效率
80 PLUS White 80%
Bronze 82%
Silver 85%
Gold 88%
Platinum 92%
Titanium 94%

服务器 PSU 主流是 Platinum 和 Titanium。Titanium 比 Platinum 多花的钱,在 24×365 满载场景下 1–2 年就能从电费里省回来。

冗余配置

模式 含义
1+1 双电源,一主一备,单故障可切
N+1 N 个工作 + 1 个热备
N+N 两组 N 个,分别接两路市电

数据中心标准做法是两路市电 + N+N PSU,从源头上避免单点故障。

服务器内部供电:12V → 48V

传统 12V 体系

PSU 对主板输出 12V DC(早期还有 5V/3.3V,现在主流只剩 12V)。主板上的 VRM(Voltage Regulator Module) 把 12V 进一步降到 CPU/GPU 需要的 0.8–1.2V。

问题:当 CPU/GPU 功耗到 500W+,12V 母线电流就是几十安培,铜损(I²R 损耗)显著上升。

48V 直供:解决高功率瓶颈

Google 在 2016 年的 OCP Summit 提出 48V 服务器供电方案,被业界广泛采纳:

1
PSU → 48V → 主板 → 48V 直接到 GPU 板 → GPU 板上 VRM 降到 1V

为什么 48V:

  • 同样功率下电流减为 12V 的 1/4
  • 铜损(∝ I²)减为 1/16
  • 母线和板上铜厚可减薄,节省成本
  • 48V 是”安全特低电压”上限,免许多安规约束

48V 现在是 AI 服务器、整机柜、NVIDIA HGX/MGX 平台的标配。Intel、AMD 的下一代 CPU 平台也在迁移到 48V。

VRM 多相

CPU 内部的 VRM 通常是 多相设计——把一个总电流分摊到多路并联的功率级,每路只承担几十安培。当代旗舰服务器 CPU 的 VRM 可达 24+ 相、瞬态电流上千安培。这部分通常做在主板上,是主板成本的隐形大头

备电:电池 vs 飞轮

UPS 的”持续供电时间”靠备电系统,常见两种:

方案 续航 维护 占地 应用
铅酸电池 5–15 分钟 周期换电池,污染重 传统
锂电池 5–15 分钟 寿命长、轻 新建机房主流
飞轮 15–30 秒 几乎免维护 HSC(High Speed Continuous)
柴发联动 数小时-数天 定期试运行 长断电兜底

数据中心标准做法:锂电 / 飞轮短时(撑过市电瞬断)+ 柴油发电机长时(撑过长时间停电)

一张总账

按一台典型 2U 双路服务器(年耗电 ~2000 度)算从市电到芯片的”总效率”:

1
2
3
4
5
6
7
8
9
10
11
12
市电 1000 W
│ × 95% (HVDC)

HVDC 输出 950 W
│ × 94% (CRPS Titanium PSU)

PSU 输出 893 W
│ × 92% (主板 VRM)

芯片实际消耗 ~822 W

总转换效率 ~82%

每台服务器一年因为电源链损耗的能量,足够再带半台同规格服务器。这就是为什么大型互联网厂商对供电改造如此投入。

小结

  • UPS → HVDC:减少一次转换,效率从 ~92% 提到 ~96%
  • 12V → 48V:减小线损,是 AI 服务器和整机柜的必选
  • CRPS + Titanium 80 PLUS 是服务器 PSU 的事实标准
  • 从市电到芯片,整体能量利用率 80% 上下,每个百分点都在被工程师抠

下一篇我们看看服务器形态从塔式到整机柜怎么演进,以及上层软件栈如何分层。