服务器硬件组成全景图

上一篇讲了服务器和 PC 的差别。这篇我们打开机箱,看看一台服务器到底由什么组成、各部件之间怎么协作。

三层视角

把一台服务器的硬件按”角色”分组,能看到三层结构:

graph TB
  subgraph MGT["管理子系统(不依赖 OS)"]
    BMC[BMC 带外管理]
    SENSOR[温/压/转速传感器]
  end
  subgraph CFG["可配置部件(按业务选配)"]
    CPU[处理器]
    MEM[内存]
    DISK[硬盘 / SSD]
    PCIE[PCIe 卡 / RAID 卡 / 网卡 / GPU]
  end
  subgraph BASE["基础硬件(每台都有)"]
    MB[主板]
    PSU[电源]
    FAN[风扇]
    CASE[机箱]
  end
  BASE --- CFG
  CFG -.信号.- MGT
  • 基础硬件:主板、电源、风扇、机箱——每台都有,差异主要在功率、规格、密度
  • 可配置部件:CPU、内存、硬盘、PCIe 扩展卡——这是订单上”配置清单”的主体
  • 管理子系统:BMC 与传感器,运维的眼睛和手

基础硬件

主板

服务器主板和消费级主板的核心差别在 PCIe 通道数内存通道数

  • 桌面级主板:单 CPU、PCIe 24 lanes 左右、双通道内存
  • 服务器主板:双/四 CPU 插槽、PCIe 80–128 lanes、8–16 通道内存、多个独立电源接入

物理形态上,服务器主板通常是 EATX 或更大的专属规格,板上集成了 BMC、PCH(平台控制器)、网络芯片(板载网口)、各类电压调节模块(VRM)。

电源(PSU)

服务器电源遵循的不是 ATX,而是 CRPS(Common Redundant Power Supply) 规格:

  • 模块化、热插拔
  • 常见功率从 550W、800W、1200W、1600W 一直到 2700W、3000W、3600W(AI 服务器需求)
  • 支持 N+1 / N+N 冗余,单一电源故障不停机
  • 80 PLUS 认证,主流为白金(Platinum)和钛金(Titanium)等级

详细参数和供电体系演进,第 6 篇专门讲。

风扇

服务器使用的是 高静压、高转速 的工业级风扇,常见 6cm/8cm 直径。指标关注:

  • 风量(CFM)——单位时间通过的空气量
  • 风压(mmH₂O)——克服密集机箱内阻力的能力
  • 转速(RPM)——通常可调,BMC 根据进风温度动态控制
  • 噪音(dBA)——服务器优先性能不优先静音

通常 4 组风扇支持 N+1 冗余,单个故障可热插拔更换。

机箱

服务器机箱按形态分为塔式、机架式(1U/2U/4U/8U)、刀片、高密、整机柜——下一篇专门讲分类。机箱要解决三件事:

  • 风道:前进后出,冷热通道隔离
  • 密度:盘位、PCIe 槽位、内存槽位最大化
  • 维护:免工具拆装、热插拔背板、模块化设计

可配置部件

这四类是订单清单里”配置”的主体,每一类都对应本系列后面的一个独立章节:

部件 关键指标 本系列章节
CPU 核数、主频、TDP、缓存、PCIe lanes 第 2 章
内存 容量、频率、通道数、ECC、形态 第 3 章
硬盘 / SSD 容量、IOPS、带宽、寿命、接口 第 4 章
GPU / 加速卡 算力、显存、互联(NVLink) 第 5 章
网卡 速率、卸载能力、是否 DPU 第 6 章
RAID 卡 RAID 级别、缓存、电池/超级电容 第 4 章

一个常见误区

很多人以为”服务器更贵 = 用了更高端的零件”。实际上:

  • 服务器的 CPU/内存/SSD 颗粒和高端工作站、消费级旗舰很多是同源的
  • 真正贵在密度、冗余、认证、固件、工程一致性——同一型号几千台批量出货,每一台行为都得一致

管理子系统:BMC

BMC(Baseboard Management Controller) 是服务器和 PC 最大的差别之一。

它是主板上一颗独立 SoC,常见型号是 ASPEED AST2500/AST2600/AST2700、华为 Hi1710、新华三自研等。它的特点:

  • 独立电源轨:主机断电,BMC 通过待机电源仍可工作
  • 独立网口:通常一个专用 RJ45 管理网口,也可共享业务网口(NCSI)
  • 独立 OS:通常是裁剪过的 Linux(如 OpenBMC、AMI MegaRAC)
  • 与主板深度集成:可读取 I²C/SPI 上挂的所有传感器、控制风扇 PWM、操控电源时序、抓取 CPU/内存的错误日志

BMC 对外提供的标准接口主要是:

  • IPMI:老一代标准,命令行风格,安全性较弱
  • Redfish:新一代标准,RESTful + JSON,逐步替代 IPMI
  • KVM Over IP:浏览器/客户端远程看屏幕、操控键鼠
  • Virtual Media:把本地 ISO/IMG 远程挂载到服务器引导

待补充:贴一张主板上 BMC 芯片的位置实拍或框图。

一张完整的拓扑

graph TB
  PSU[冗余电源 PSU] --> MB[主板供电]
  MB --> CPU1[CPU 0]
  MB --> CPU2[CPU 1]
  CPU1 <-- UPI/Infinity Fabric --> CPU2
  CPU1 --- M1[(内存 通道 0..n)]
  CPU2 --- M2[(内存 通道 0..n)]
  CPU1 -- PCIe --> NIC[网卡]
  CPU1 -- PCIe --> GPU[GPU/加速卡]
  CPU1 -- PCIe --> RAID[RAID 卡]
  CPU2 -- PCIe --> NVMe[NVMe SSD]
  CPU1 --- PCH[PCH 芯片组]
  PCH --> SATA[SATA SSD/HDD]
  PCH --> USB
  PCH --> BMC
  BMC -- 管理网口 --> MGMT[运维网络]
  FAN[风扇组] -.PWM.- BMC
  SENSOR[温/压传感器] -.I²C/SPI.- BMC
  TPM[TPM/TCM] -.SPI.- PCH

几个要点:

  • CPU 直接对接的高速设备:内存、PCIe 设备(GPU、网卡、NVMe SSD)
  • PCH 对接的低速/管理设备:SATA、USB、BMC、TPM
  • BMC 是独立的”小服务器”:监管所有传感器、控制风扇和电源时序
  • CPU 之间通过 UPI(Intel)或 Infinity Fabric(AMD)互联:构成 NUMA 系统

下一篇我们就从这张拓扑里的”主板与总线”细节展开。

小结

服务器硬件可以拆成三层:基础硬件保证可用、可配置部件决定能力、管理子系统决定可运维。后面每一章对应可配置部件的一个细节展开,但每次回头看都要记得它在这张全景图里的位置。