整机柜方案 —— OCP、天蝎与 GB200 NVL72
第一章的最后一篇,留给一种特殊形态:整机柜。它不是新概念,但 2024 年后随着 NVIDIA GB200 NVL72 的爆款,整机柜从”互联网厂商内部 cost-saving”变成了 AI 训练的主流交付形态。
为什么会出现整机柜
如果你在数据中心运维 1000 台 1U 服务器:
- 1000 个 PSU,每个独立做 80 PLUS Titanium,有 5% 的电源闲置容量浪费
- 1000 个机箱风扇组,每组各转各的,风道彼此干扰
- 1000 套 BMC,每个独立网线、独立 IP、独立监控
- 1000 次”插服务器、插电源线、插网线、贴标签”的人工
这些重复成本,在传统机架服务器形态下是无法消除的。整机柜把它们集中:
graph TB
subgraph 传统["传统机架(41U 个独立节点)"]
T1[节点 1
PSU·风扇·BMC·线缆]
T2[节点 2
PSU·风扇·BMC·线缆]
T3[节点 N
PSU·风扇·BMC·线缆]
end
subgraph 整机柜["整机柜(共享基础设施)"]
R1[计算节点 ×N]
R2[共享电源框]
R3[共享风扇框]
R4[母线槽]
R5[柜级管理 RMC]
R6[网络交换 ToR]
R1 -.- R2
R1 -.- R3
R1 -.- R4
R1 -.- R5
end
集中带来的好处:
- PSU 共享:N+M 冗余按整柜算,闲置容量减半
- 风扇共享:大风扇取代小风扇,效率高、噪音低、耗电低
- 母线槽供电:节点免插电源线,运维只剩”推进推出”
- 柜级 BMC(RMC):一个管理点接管整柜的电、温度、功耗封顶
整体测下来,互联网厂商整机柜方案的 TCO 比传统机架低 10–20%。
三个代表方案
1. OCP(Open Compute Project)
2011 年 Facebook 牵头成立,开源服务器、机柜、网络规范。当前 OCP 的主流规格:
- Open Rack v3 (ORv3):21” 宽(530 mm)机柜,41 OU 高度(OCP 自定义”OU”约 48 mm)
- 48V 母线槽供电
- Power Shelf(电源框):2U/3U 集中放 6–9 个 3kW PSU
- Sled(计算节点):标准抽屉式,1OU/2OU 高,免工具维护
- Yosemite v3 / DC-MHS:模块化主机机箱规范,CPU/IO/存储模块解耦
OCP 用户:Meta、Microsoft、Google(部分)、欧美大型云厂商。
待补充:OCP 在国内的部署案例和占比。
2. 天蝎(Project Scorpio)
2014 年由阿里巴巴、百度、腾讯(”天蝎三剑客”)联合启动,针对中国数据中心规范的整机柜方案:
- 19” 宽(与传统机架兼容)+ 加宽变种
- 集中电源 + 集中风扇 + 集中管理(RMC)
- 2014 年 1.0 → 2018 年 2.0 → 2021 年 3.0
天蝎 3.0 起向 OCP 靠拢(48V、模块化),但保留对国内 19” 机柜的兼容。代表用户:阿里、腾讯、字节、运营商。
| OCP ORv3 | 天蝎 3.0 | |
|---|---|---|
| 机柜宽度 | 21” | 19” |
| 供电 | 48V 母线 | 48V 母线 |
| 节点形态 | 抽屉 / 1OU / 2OU | 1U / 2U |
| 主导者 | 北美互联网厂商 | 中国互联网厂商 |
| 兼容传统机柜 | 否(需新柜) | 是 |
3. NVIDIA GB200 NVL72
2024 年 NVIDIA 发布的整机柜 AI 训练系统,是当前 AI 算力交付的事实标准。它和 OCP/天蝎都不同——它是一台机器,不是一柜机器。
graph TB
subgraph NVL72["NVL72 一柜"]
SW[NVSwitch Tray ×9]
subgraph CT["Compute Tray ×18 (1U)"]
CT1[2× Grace CPU]
CT2[4× Blackwell GPU]
CT3[NVLink 端口]
end
SW <-- 全互联铜缆 --> CT
PWR[电源母线]
LIQ[液冷管路]
MGMT[BlueField DPU 管理]
end
核心规格:
- 18 个 Compute Tray,每个 2 颗 Grace CPU + 4 颗 B200 GPU = 36 CPU + 72 GPU
- 9 个 NVSwitch Tray,全机柜 72 颗 GPU 之间 NVLink 5.0 全互联
- 总 NVLink 域 = 72 GPU,跨 GPU 内存可直接寻址
- 130 TB/s 内部带宽(数量级超过 InfiniBand 集群)
- 冷板液冷——风冷已无法压住单柜 ~120 kW
- 整机功耗 ~120 kW
为什么是 72?因为这是NVLink 5.0 在铜缆距离限制下能做到的最大全互联域。再往上要走光纤,延迟和成本都翻番。
NVL72 实际上把”一台 8 卡训练机”做成了”一台 72 卡训练机”。在这一柜内,72 颗 GPU 可以像一颗大 GPU 一样跑大模型——这才是它颠覆性的地方。
待补充:核对 NVL72 的最新部署量、GB300 NVL576 的进展。
整机柜的工程难点
整机柜不是简单”把零件搬到一起”,要解决几件硬事:
1. 高密度供电
120 kW 单柜功率,48V 直流母线也要承担 2500 A 电流。母线截面积、连接器选型、过流保护都重新设计——这是为什么 GB200 必须用专属机柜,而不是普通 19” 机架能塞进去的。
2. 高效散热
风冷在 ~30 kW/柜 已显疲态,超过 50 kW/柜 几乎只剩液冷一条路。GB200 NVL72 用的是冷板液冷 + 柜内 CDU + 通柜液体管路。机房侧需要:
- 二次冷却系统(CDU 出去到 chiller)
- 漏液检测(每个 manifold 上挂传感器)
- 防腐管材和接头(卡套式快速接头)
3. 节点间互联
NVL72 的难点之一是 5184 条 NVLink 铜缆——72 GPU × 18 链路 / 2,全部从 Compute Tray 引到中间的 NVSwitch Tray。背板设计、信号完整性、线缆走线都是新挑战。
4. 柜级管理
整柜要作为一个整体进行:
- 上电时序(先柜级电源、再节点电源、再 GPU)
- 功率封顶(动态调节防止超过母线容量)
- 故障域隔离(一节点故障不影响整柜)
- 软件镜像批量分发
OCP 用 Open Rack Manager(RMC + Redfish),天蝎用各家自研,GB200 用 BlueField DPU 做柜级管理。
整机柜 vs 传统机架:怎么选
| 场景 | 推荐 |
|---|---|
| 单机房 < 1000 台节点 | 传统机架(整机柜规模效应不明显) |
| 大型互联网/云厂商,标准化部署 | OCP / 天蝎 |
| AI 训练,集群规模 ≥ 几百卡 | NVL72 或类似 AI 整机柜方案 |
| AI 训练,集群规模较小 | 8 卡 HGX 服务器(4U/6U)就够 |
| 边缘场景 | 传统机架,整机柜不适合 |
第一章小结
到这里第一章九节已经讲完。回看一下我们走过的路:
- 什么是服务器 — 与 PC 的本质区别
- 硬件组成 — 三层视角(基础/可配置/管理)
- 主板与总线 — PCIe / UPI / DMI / SATA / SAS / SPI
- 服务器分类 — 五个维度
- 散热 — 风冷到液冷的转折点
- 供电 — UPS / HVDC / CRPS / 12V→48V
- 形态演进 — 时间线 + 软件栈分层
- 整机柜 — OCP / 天蝎 / GB200 NVL72
第一章给的是全景,从下一章开始我们逐个部件深入:
- 第 2 章:CPU——指令集、Intel/AMD 路线图、ARM 服务器、国产 CPU、微架构
- 第 3 章:内存——DDR、ECC、HBM、CXL
- 第 4 章:存储——HDD/SSD/NVMe、NAND、RAID、E1.S/E3.S
- 第 5 章:GPU 与 AI 加速——这一章会很长
- 第 6 章起:网卡、操作系统、可信计算、基准测试
如果有看到不准确、过时或者你想补充的地方,欢迎指出来。