服务器硬件组成全景图
上一篇讲了服务器和 PC 的差别。这篇我们打开机箱,看看一台服务器到底由什么组成、各部件之间怎么协作。
三层视角
把一台服务器的硬件按”角色”分组,能看到三层结构:
graph TB
subgraph MGT["管理子系统(不依赖 OS)"]
BMC[BMC 带外管理]
SENSOR[温/压/转速传感器]
end
subgraph CFG["可配置部件(按业务选配)"]
CPU[处理器]
MEM[内存]
DISK[硬盘 / SSD]
PCIE[PCIe 卡 / RAID 卡 / 网卡 / GPU]
end
subgraph BASE["基础硬件(每台都有)"]
MB[主板]
PSU[电源]
FAN[风扇]
CASE[机箱]
end
BASE --- CFG
CFG -.信号.- MGT
- 基础硬件:主板、电源、风扇、机箱——每台都有,差异主要在功率、规格、密度
- 可配置部件:CPU、内存、硬盘、PCIe 扩展卡——这是订单上”配置清单”的主体
- 管理子系统:BMC 与传感器,运维的眼睛和手
基础硬件
主板
服务器主板和消费级主板的核心差别在 PCIe 通道数 和 内存通道数:
- 桌面级主板:单 CPU、PCIe 24 lanes 左右、双通道内存
- 服务器主板:双/四 CPU 插槽、PCIe 80–128 lanes、8–16 通道内存、多个独立电源接入
物理形态上,服务器主板通常是 EATX 或更大的专属规格,板上集成了 BMC、PCH(平台控制器)、网络芯片(板载网口)、各类电压调节模块(VRM)。
电源(PSU)
服务器电源遵循的不是 ATX,而是 CRPS(Common Redundant Power Supply) 规格:
- 模块化、热插拔
- 常见功率从 550W、800W、1200W、1600W 一直到 2700W、3000W、3600W(AI 服务器需求)
- 支持 N+1 / N+N 冗余,单一电源故障不停机
- 80 PLUS 认证,主流为白金(Platinum)和钛金(Titanium)等级
详细参数和供电体系演进,第 6 篇专门讲。
风扇
服务器使用的是 高静压、高转速 的工业级风扇,常见 6cm/8cm 直径。指标关注:
- 风量(CFM)——单位时间通过的空气量
- 风压(mmH₂O)——克服密集机箱内阻力的能力
- 转速(RPM)——通常可调,BMC 根据进风温度动态控制
- 噪音(dBA)——服务器优先性能不优先静音
通常 4 组风扇支持 N+1 冗余,单个故障可热插拔更换。
机箱
服务器机箱按形态分为塔式、机架式(1U/2U/4U/8U)、刀片、高密、整机柜——下一篇专门讲分类。机箱要解决三件事:
- 风道:前进后出,冷热通道隔离
- 密度:盘位、PCIe 槽位、内存槽位最大化
- 维护:免工具拆装、热插拔背板、模块化设计
可配置部件
这四类是订单清单里”配置”的主体,每一类都对应本系列后面的一个独立章节:
| 部件 | 关键指标 | 本系列章节 |
|---|---|---|
| CPU | 核数、主频、TDP、缓存、PCIe lanes | 第 2 章 |
| 内存 | 容量、频率、通道数、ECC、形态 | 第 3 章 |
| 硬盘 / SSD | 容量、IOPS、带宽、寿命、接口 | 第 4 章 |
| GPU / 加速卡 | 算力、显存、互联(NVLink) | 第 5 章 |
| 网卡 | 速率、卸载能力、是否 DPU | 第 6 章 |
| RAID 卡 | RAID 级别、缓存、电池/超级电容 | 第 4 章 |
一个常见误区
很多人以为”服务器更贵 = 用了更高端的零件”。实际上:
- 服务器的 CPU/内存/SSD 颗粒和高端工作站、消费级旗舰很多是同源的
- 真正贵在密度、冗余、认证、固件、工程一致性——同一型号几千台批量出货,每一台行为都得一致
管理子系统:BMC
BMC(Baseboard Management Controller) 是服务器和 PC 最大的差别之一。
它是主板上一颗独立 SoC,常见型号是 ASPEED AST2500/AST2600/AST2700、华为 Hi1710、新华三自研等。它的特点:
- 独立电源轨:主机断电,BMC 通过待机电源仍可工作
- 独立网口:通常一个专用 RJ45 管理网口,也可共享业务网口(NCSI)
- 独立 OS:通常是裁剪过的 Linux(如 OpenBMC、AMI MegaRAC)
- 与主板深度集成:可读取 I²C/SPI 上挂的所有传感器、控制风扇 PWM、操控电源时序、抓取 CPU/内存的错误日志
BMC 对外提供的标准接口主要是:
- IPMI:老一代标准,命令行风格,安全性较弱
- Redfish:新一代标准,RESTful + JSON,逐步替代 IPMI
- KVM Over IP:浏览器/客户端远程看屏幕、操控键鼠
- Virtual Media:把本地 ISO/IMG 远程挂载到服务器引导
待补充:贴一张主板上 BMC 芯片的位置实拍或框图。
一张完整的拓扑
graph TB PSU[冗余电源 PSU] --> MB[主板供电] MB --> CPU1[CPU 0] MB --> CPU2[CPU 1] CPU1 <-- UPI/Infinity Fabric --> CPU2 CPU1 --- M1[(内存 通道 0..n)] CPU2 --- M2[(内存 通道 0..n)] CPU1 -- PCIe --> NIC[网卡] CPU1 -- PCIe --> GPU[GPU/加速卡] CPU1 -- PCIe --> RAID[RAID 卡] CPU2 -- PCIe --> NVMe[NVMe SSD] CPU1 --- PCH[PCH 芯片组] PCH --> SATA[SATA SSD/HDD] PCH --> USB PCH --> BMC BMC -- 管理网口 --> MGMT[运维网络] FAN[风扇组] -.PWM.- BMC SENSOR[温/压传感器] -.I²C/SPI.- BMC TPM[TPM/TCM] -.SPI.- PCH
几个要点:
- CPU 直接对接的高速设备:内存、PCIe 设备(GPU、网卡、NVMe SSD)
- PCH 对接的低速/管理设备:SATA、USB、BMC、TPM
- BMC 是独立的”小服务器”:监管所有传感器、控制风扇和电源时序
- CPU 之间通过 UPI(Intel)或 Infinity Fabric(AMD)互联:构成 NUMA 系统
下一篇我们就从这张拓扑里的”主板与总线”细节展开。
小结
服务器硬件可以拆成三层:基础硬件保证可用、可配置部件决定能力、管理子系统决定可运维。后面每一章对应可配置部件的一个细节展开,但每次回头看都要记得它在这张全景图里的位置。