整机柜方案 —— OCP、天蝎与 GB200 NVL72

第一章的最后一篇，留给一种特殊形态：整机柜。它不是新概念，但 2024 年后随着 NVIDIA GB200 NVL72 的爆款，整机柜从”互联网厂商内部 cost-saving”变成了 AI 训练的主流交付形态。

为什么会出现整机柜

如果你在数据中心运维 1000 台 1U 服务器：

1000 个 PSU，每个独立做 80 PLUS Titanium，有 5% 的电源闲置容量浪费
1000 个机箱风扇组，每组各转各的，风道彼此干扰
1000 套 BMC，每个独立网线、独立 IP、独立监控
1000 次”插服务器、插电源线、插网线、贴标签”的人工

这些重复成本，在传统机架服务器形态下是无法消除的。整机柜把它们集中：

graph TB
  subgraph 传统["传统机架（41U 个独立节点）"]
    T1[节点 1
PSU·风扇·BMC·线缆]
    T2[节点 2
PSU·风扇·BMC·线缆]
    T3[节点 N
PSU·风扇·BMC·线缆]
  end
  subgraph 整机柜["整机柜（共享基础设施）"]
    R1[计算节点 ×N]
    R2[共享电源框]
    R3[共享风扇框]
    R4[母线槽]
    R5[柜级管理 RMC]
    R6[网络交换 ToR]
    R1 -.- R2
    R1 -.- R3
    R1 -.- R4
    R1 -.- R5
  end

集中带来的好处：

PSU 共享：N+M 冗余按整柜算，闲置容量减半
风扇共享：大风扇取代小风扇，效率高、噪音低、耗电低
母线槽供电：节点免插电源线，运维只剩”推进推出”
柜级 BMC（RMC）：一个管理点接管整柜的电、温度、功耗封顶

整体测下来，互联网厂商整机柜方案的 TCO 比传统机架低 10–20%。

三个代表方案

1. OCP（Open Compute Project）

2011 年 Facebook 牵头成立，开源服务器、机柜、网络规范。当前 OCP 的主流规格：

Open Rack v3 (ORv3)：21” 宽（530 mm）机柜，41 OU 高度（OCP 自定义”OU”约 48 mm）
48V 母线槽供电
Power Shelf（电源框）：2U/3U 集中放 6–9 个 3kW PSU
Sled（计算节点）：标准抽屉式，1OU/2OU 高，免工具维护
Yosemite v3 / DC-MHS：模块化主机机箱规范，CPU/IO/存储模块解耦

OCP 用户：Meta、Microsoft、Google（部分）、欧美大型云厂商。

待补充：OCP 在国内的部署案例和占比。

2. 天蝎（Project Scorpio）

2014 年由阿里巴巴、百度、腾讯（”天蝎三剑客”）联合启动，针对中国数据中心规范的整机柜方案：

19” 宽（与传统机架兼容）+ 加宽变种
集中电源 + 集中风扇 + 集中管理（RMC）
2014 年 1.0 → 2018 年 2.0 → 2021 年 3.0

天蝎 3.0 起向 OCP 靠拢（48V、模块化），但保留对国内 19” 机柜的兼容。代表用户：阿里、腾讯、字节、运营商。

	OCP ORv3	天蝎 3.0
机柜宽度	21”	19”
供电	48V 母线	48V 母线
节点形态	抽屉 / 1OU / 2OU	1U / 2U
主导者	北美互联网厂商	中国互联网厂商
兼容传统机柜	否（需新柜）	是

3. NVIDIA GB200 NVL72

2024 年 NVIDIA 发布的整机柜 AI 训练系统，是当前 AI 算力交付的事实标准。它和 OCP/天蝎都不同——它是一台机器，不是一柜机器。

graph TB
  subgraph NVL72["NVL72 一柜"]
    SW[NVSwitch Tray ×9]
    subgraph CT["Compute Tray ×18 (1U)"]
      CT1[2× Grace CPU]
      CT2[4× Blackwell GPU]
      CT3[NVLink 端口]
    end
    SW <-- 全互联铜缆 --> CT
    PWR[电源母线]
    LIQ[液冷管路]
    MGMT[BlueField DPU 管理]
  end

核心规格：

18 个 Compute Tray，每个 2 颗 Grace CPU + 4 颗 B200 GPU = 36 CPU + 72 GPU
9 个 NVSwitch Tray，全机柜 72 颗 GPU 之间 NVLink 5.0 全互联
总 NVLink 域 = 72 GPU，跨 GPU 内存可直接寻址
130 TB/s 内部带宽（数量级超过 InfiniBand 集群）
冷板液冷——风冷已无法压住单柜 ~120 kW
整机功耗 ~120 kW

为什么是 72？因为这是NVLink 5.0 在铜缆距离限制下能做到的最大全互联域。再往上要走光纤，延迟和成本都翻番。

NVL72 实际上把”一台 8 卡训练机”做成了”一台 72 卡训练机”。在这一柜内，72 颗 GPU 可以像一颗大 GPU 一样跑大模型——这才是它颠覆性的地方。

待补充：核对 NVL72 的最新部署量、GB300 NVL576 的进展。

整机柜的工程难点

整机柜不是简单”把零件搬到一起”，要解决几件硬事：

1. 高密度供电

120 kW 单柜功率，48V 直流母线也要承担 2500 A 电流。母线截面积、连接器选型、过流保护都重新设计——这是为什么 GB200 必须用专属机柜，而不是普通 19” 机架能塞进去的。

2. 高效散热

风冷在 ~30 kW/柜已显疲态，超过 50 kW/柜几乎只剩液冷一条路。GB200 NVL72 用的是冷板液冷 + 柜内 CDU + 通柜液体管路。机房侧需要：

二次冷却系统（CDU 出去到 chiller）
漏液检测（每个 manifold 上挂传感器）
防腐管材和接头（卡套式快速接头）

3. 节点间互联

NVL72 的难点之一是 5184 条 NVLink 铜缆——72 GPU × 18 链路 / 2，全部从 Compute Tray 引到中间的 NVSwitch Tray。背板设计、信号完整性、线缆走线都是新挑战。

4. 柜级管理

整柜要作为一个整体进行：

上电时序（先柜级电源、再节点电源、再 GPU）
功率封顶（动态调节防止超过母线容量）
故障域隔离（一节点故障不影响整柜）
软件镜像批量分发

OCP 用 Open Rack Manager（RMC + Redfish），天蝎用各家自研，GB200 用 BlueField DPU 做柜级管理。

整机柜 vs 传统机架：怎么选

场景	推荐
单机房 < 1000 台节点	传统机架（整机柜规模效应不明显）
大型互联网/云厂商，标准化部署	OCP / 天蝎
AI 训练，集群规模 ≥ 几百卡	NVL72 或类似 AI 整机柜方案
AI 训练，集群规模较小	8 卡 HGX 服务器（4U/6U）就够
边缘场景	传统机架，整机柜不适合

第一章小结

到这里第一章九节已经讲完。回看一下我们走过的路：

什么是服务器 — 与 PC 的本质区别
硬件组成 — 三层视角（基础/可配置/管理）
主板与总线 — PCIe / UPI / DMI / SATA / SAS / SPI
服务器分类 — 五个维度
散热 — 风冷到液冷的转折点
供电 — UPS / HVDC / CRPS / 12V→48V
形态演进 — 时间线 + 软件栈分层
整机柜 — OCP / 天蝎 / GB200 NVL72

第一章给的是全景，从下一章开始我们逐个部件深入：

第 2 章：CPU——指令集、Intel/AMD 路线图、ARM 服务器、国产 CPU、微架构
第 3 章：内存——DDR、ECC、HBM、CXL
第 4 章：存储——HDD/SSD/NVMe、NAND、RAID、E1.S/E3.S
第 5 章：GPU 与 AI 加速——这一章会很长
第 6 章起：网卡、操作系统、可信计算、基准测试

如果有看到不准确、过时或者你想补充的地方，欢迎指出来。

01-服务器通用

#整机柜 #OCP #天蝎 #GB200

CPU 历史与经典结构 —— 从 ENIAC 到现代上一篇

服务器形态演进与上层软件架构下一篇