整机柜方案 —— OCP、天蝎与 GB200 NVL72

第一章的最后一篇,留给一种特殊形态:整机柜。它不是新概念,但 2024 年后随着 NVIDIA GB200 NVL72 的爆款,整机柜从”互联网厂商内部 cost-saving”变成了 AI 训练的主流交付形态

为什么会出现整机柜

如果你在数据中心运维 1000 台 1U 服务器:

  • 1000 个 PSU,每个独立做 80 PLUS Titanium,有 5% 的电源闲置容量浪费
  • 1000 个机箱风扇组,每组各转各的,风道彼此干扰
  • 1000 套 BMC,每个独立网线、独立 IP、独立监控
  • 1000 次”插服务器、插电源线、插网线、贴标签”的人工

这些重复成本,在传统机架服务器形态下是无法消除的。整机柜把它们集中:

graph TB
  subgraph 传统["传统机架(41U 个独立节点)"]
    T1[节点 1
PSU·风扇·BMC·线缆] T2[节点 2
PSU·风扇·BMC·线缆] T3[节点 N
PSU·风扇·BMC·线缆] end subgraph 整机柜["整机柜(共享基础设施)"] R1[计算节点 ×N] R2[共享电源框] R3[共享风扇框] R4[母线槽] R5[柜级管理 RMC] R6[网络交换 ToR] R1 -.- R2 R1 -.- R3 R1 -.- R4 R1 -.- R5 end

集中带来的好处:

  • PSU 共享:N+M 冗余按整柜算,闲置容量减半
  • 风扇共享:大风扇取代小风扇,效率高、噪音低、耗电低
  • 母线槽供电:节点免插电源线,运维只剩”推进推出”
  • 柜级 BMC(RMC):一个管理点接管整柜的电、温度、功耗封顶

整体测下来,互联网厂商整机柜方案的 TCO 比传统机架低 10–20%

三个代表方案

1. OCP(Open Compute Project)

2011 年 Facebook 牵头成立,开源服务器、机柜、网络规范。当前 OCP 的主流规格:

  • Open Rack v3 (ORv3):21” 宽(530 mm)机柜,41 OU 高度(OCP 自定义”OU”约 48 mm)
  • 48V 母线槽供电
  • Power Shelf(电源框):2U/3U 集中放 6–9 个 3kW PSU
  • Sled(计算节点):标准抽屉式,1OU/2OU 高,免工具维护
  • Yosemite v3 / DC-MHS:模块化主机机箱规范,CPU/IO/存储模块解耦

OCP 用户:Meta、Microsoft、Google(部分)、欧美大型云厂商。

待补充:OCP 在国内的部署案例和占比。

2. 天蝎(Project Scorpio)

2014 年由阿里巴巴、百度、腾讯(”天蝎三剑客”)联合启动,针对中国数据中心规范的整机柜方案:

  • 19” 宽(与传统机架兼容)+ 加宽变种
  • 集中电源 + 集中风扇 + 集中管理(RMC)
  • 2014 年 1.0 → 2018 年 2.0 → 2021 年 3.0

天蝎 3.0 起向 OCP 靠拢(48V、模块化),但保留对国内 19” 机柜的兼容。代表用户:阿里、腾讯、字节、运营商。

OCP ORv3 天蝎 3.0
机柜宽度 21” 19”
供电 48V 母线 48V 母线
节点形态 抽屉 / 1OU / 2OU 1U / 2U
主导者 北美互联网厂商 中国互联网厂商
兼容传统机柜 否(需新柜)

3. NVIDIA GB200 NVL72

2024 年 NVIDIA 发布的整机柜 AI 训练系统,是当前 AI 算力交付的事实标准。它和 OCP/天蝎都不同——它是一台机器,不是一柜机器

graph TB
  subgraph NVL72["NVL72 一柜"]
    SW[NVSwitch Tray ×9]
    subgraph CT["Compute Tray ×18 (1U)"]
      CT1[2× Grace CPU]
      CT2[4× Blackwell GPU]
      CT3[NVLink 端口]
    end
    SW <-- 全互联铜缆 --> CT
    PWR[电源母线]
    LIQ[液冷管路]
    MGMT[BlueField DPU 管理]
  end

核心规格:

  • 18 个 Compute Tray,每个 2 颗 Grace CPU + 4 颗 B200 GPU = 36 CPU + 72 GPU
  • 9 个 NVSwitch Tray,全机柜 72 颗 GPU 之间 NVLink 5.0 全互联
  • 总 NVLink 域 = 72 GPU,跨 GPU 内存可直接寻址
  • 130 TB/s 内部带宽(数量级超过 InfiniBand 集群)
  • 冷板液冷——风冷已无法压住单柜 ~120 kW
  • 整机功耗 ~120 kW

为什么是 72?因为这是NVLink 5.0 在铜缆距离限制下能做到的最大全互联域。再往上要走光纤,延迟和成本都翻番。

NVL72 实际上把”一台 8 卡训练机”做成了”一台 72 卡训练机”。在这一柜内,72 颗 GPU 可以像一颗大 GPU 一样跑大模型——这才是它颠覆性的地方。

待补充:核对 NVL72 的最新部署量、GB300 NVL576 的进展。

整机柜的工程难点

整机柜不是简单”把零件搬到一起”,要解决几件硬事:

1. 高密度供电

120 kW 单柜功率,48V 直流母线也要承担 2500 A 电流。母线截面积、连接器选型、过流保护都重新设计——这是为什么 GB200 必须用专属机柜,而不是普通 19” 机架能塞进去的。

2. 高效散热

风冷在 ~30 kW/柜 已显疲态,超过 50 kW/柜 几乎只剩液冷一条路。GB200 NVL72 用的是冷板液冷 + 柜内 CDU + 通柜液体管路。机房侧需要:

  • 二次冷却系统(CDU 出去到 chiller)
  • 漏液检测(每个 manifold 上挂传感器)
  • 防腐管材和接头(卡套式快速接头)

3. 节点间互联

NVL72 的难点之一是 5184 条 NVLink 铜缆——72 GPU × 18 链路 / 2,全部从 Compute Tray 引到中间的 NVSwitch Tray。背板设计、信号完整性、线缆走线都是新挑战。

4. 柜级管理

整柜要作为一个整体进行:

  • 上电时序(先柜级电源、再节点电源、再 GPU)
  • 功率封顶(动态调节防止超过母线容量)
  • 故障域隔离(一节点故障不影响整柜)
  • 软件镜像批量分发

OCP 用 Open Rack Manager(RMC + Redfish),天蝎用各家自研,GB200 用 BlueField DPU 做柜级管理。

整机柜 vs 传统机架:怎么选

场景 推荐
单机房 < 1000 台节点 传统机架(整机柜规模效应不明显)
大型互联网/云厂商,标准化部署 OCP / 天蝎
AI 训练,集群规模 ≥ 几百卡 NVL72 或类似 AI 整机柜方案
AI 训练,集群规模较小 8 卡 HGX 服务器(4U/6U)就够
边缘场景 传统机架,整机柜不适合

第一章小结

到这里第一章九节已经讲完。回看一下我们走过的路:

  1. 什么是服务器 — 与 PC 的本质区别
  2. 硬件组成 — 三层视角(基础/可配置/管理)
  3. 主板与总线 — PCIe / UPI / DMI / SATA / SAS / SPI
  4. 服务器分类 — 五个维度
  5. 散热 — 风冷到液冷的转折点
  6. 供电 — UPS / HVDC / CRPS / 12V→48V
  7. 形态演进 — 时间线 + 软件栈分层
  8. 整机柜 — OCP / 天蝎 / GB200 NVL72

第一章给的是全景,从下一章开始我们逐个部件深入:

  • 第 2 章:CPU——指令集、Intel/AMD 路线图、ARM 服务器、国产 CPU、微架构
  • 第 3 章:内存——DDR、ECC、HBM、CXL
  • 第 4 章:存储——HDD/SSD/NVMe、NAND、RAID、E1.S/E3.S
  • 第 5 章:GPU 与 AI 加速——这一章会很长
  • 第 6 章起:网卡、操作系统、可信计算、基准测试

如果有看到不准确、过时或者你想补充的地方,欢迎指出来。