HDD 物理基础与企业级机械盘

第四章讲存储。SSD 已经在性能盘市场全面胜出,但 HDD 远没退出舞台——超大规模冷存储(YouTube、抖音、对象存储)依然 90% 是机械盘。本篇从 HDD 的物理基础讲起。

HDD 的基本结构

graph TB
  subgraph HDD
    Spindle[主轴电机
5400/7200/10K/15K rpm] Platter[盘片 × N
玻璃/铝合金基底
磁性涂层] Head[读写磁头 × N
每盘片正反 2 个] VCM[音圈马达
悬臂定位] PCB[PCB 控制板
SoC + 缓存 + 电源] end Spindle --- Platter Platter --- Head Head --- VCM PCB --- VCM & Spindle

一颗企业级 22 TB 硬盘内部:

  • 10 张盘片(双面,共 20 个记录面)
  • 20 个磁头(每记录面一个)
  • 主轴 7200 rpm
  • 充氦气(降低风阻、降功耗)
  • PCB 上有 ARM SoC + DDR3/4 缓存 + 闪存(固件)

盘片表面的”道、扇区、磁道”

1
2
3
4
5
6
7
8
9
10
11
12
┌─────────────────┐
│ 盘片 │
│ ┌─────────┐ │
│ │ ┌──┐ │ │
│ │ │ │ │ │ ← 一条磁道(Track)
│ │ └──┘ │ │
│ └─────────┘ │
│ │
└─────────────────┘
|扇区|扇区|扇区|...
每扇区 4 KB(AF 4Kn)
历史扇区为 512 byte(512n)
  • 一条磁道(track)= 同一半径的圆环
  • 一个扇区(sector)= 磁道上一段,是最小读写单位
  • 同一柱面(cylinder)= 多张盘片同半径的所有磁道

寻址:现在都用 LBA(Logical Block Address),从 0 到容量上限的线性编号。CHS(柱头扇)只在固件内部用。

几个核心物理参数

参数 含义 典型值
转速 主轴每分钟转数 5400 / 7200 / 10K / 15K rpm
平均寻道 磁头跨磁道时间 3.5-9 ms
平均旋转延迟 半圈时间 7200 = 4.16 ms / 15K = 2 ms
平均访问时间 寻道 + 旋转 7-15 ms
顺序吞吐 MB/s 200-300(22TB 盘)
随机 IOPS 4K 随机 80-200

关键认知:HDD 的 IOPS 上不去

物理决定的极限:

1
2
3
4
5
7200 rpm = 7200 / 60 = 120 转/秒
每转最多 2 次访问(半圈寻道+读)
单磁头理论 IOPS ≈ 240
实际(顺序较多)≈ 200-300
4K 纯随机 ≈ 80-150

这就是 HDD 永远比不过 SSD 的根本原因——SSD 没有机械臂。一个 NVMe SSD 4K 随机 100 万 IOPS,HDD 100 IOPS,差 1 万倍

记录密度的演进:PMR / SMR / HAMR / MAMR

HDD 容量增长靠的是记录密度,这一直是这条产业链最难的 R&D 战场。

LMR(纵向磁记录)—— 已淘汰

最早的方式,磁性指向沿盘片表面。2005 年达到极限(~150 Gb/in²)。

PMR(垂直磁记录)—— 主流二十年

1
2
LMR:  磁性指向 ←→ 沿盘面方向
PMR: 磁性指向 ↕ 垂直盘面方向

垂直方向上磁颗粒可以更小、更密。从 2006 年起一直主流。当前主流的 22-30 TB CMR 盘都是 PMR

CMR vs SMR

graph LR
  subgraph CMR["CMR 常规磁记录"]
    T1[Track 1]
    T2[Track 2]
    T3[Track 3]
  end
  subgraph SMR["SMR 叠瓦磁记录"]
    S1[Track 1]
    S2[Track 2 ←叠]
    S3[Track 3 ←叠]
    S4[Track 4 ←叠]
  end
  • CMR(Conventional MR):磁道之间留间隔,写入互不影响。可以随意覆写
  • SMR(Shingled MR):磁道部分重叠(像屋顶瓦片),密度提升 ~25%,但重写一条就影响后面几条

SMR 写入特性:

1
2
3
顺序写:快(与 CMR 同)
随机写:性能崩溃(要把后续磁道一并搬迁)
覆写:极慢

SMR 三种实现:

类型 谁管的 应用
DM-SMR(Drive Managed) 盘内固件 消费级,对 OS 透明,性能不可预测
HM-SMR(Host Managed) 主机软件 企业级(对象存储)
HA-SMR(Host Aware) 混合 中间方案

待补充:DM-SMR 在备份场景下的实战表现,以及云厂商对 HM-SMR 的实际部署情况。

HAMR / MAMR —— 下一代

PMR 撞到密度上限(~1.2 Tb/in²),下一代靠两条路:

HAMR(Heat-Assisted MR,热辅助)

写入时用激光把目标点局部加热到 ~450°C,让磁颗粒进入”易写入”状态,写完瞬间冷却保留。这能用更稳定的磁性材料 → 更小的颗粒 → 更高的密度。

  • Seagate Mozaic 3+ 是首批量产的 HAMR 盘(30 TB+,2024 起规模出货)
  • 长期路线:2026 年到 40 TB,2030 年到 50 TB

MAMR(Microwave-Assisted MR,微波辅助)

用微波激发让磁颗粒翻转更容易。Western Digital 主推这条路。

  • 实际产品上 WD 用了 ePMR(增强 PMR)和 OptiNAND 等过渡技术
  • WD 后来也宣布转向 HAMR

待补充:2025-2026 WD 与 Seagate 在 HAMR/MAMR 路线上的最新进展。

容量路线(公开规划)

1
2
3
4
5
2020:18 TB CMR(主流)
2022:20 TB CMR / 26 TB SMR
2024:22 TB CMR / 28 TB SMR / 30 TB HAMR(Seagate)
2026:32 TB CMR / 36 TB HAMR
2028:50 TB HAMR

待补充:以厂商最新路线图为准。

容量计算的”陷阱”

厂家标 1 TB = 10¹² byte,OS 用 1 TiB = 2⁴⁰ byte。

1
2
22 TB 硬盘标称:22 × 10¹² byte = 22,000,000,000,000 byte
OS 看到: 22e12 / 2⁴⁰ = 20.0 TiB

服务器领域 常用按 TB 标实际容量按 TiB 用——别按”标称”算 RAID 重建时间。

接口家族

HDD 接口和 SSD 不完全一样:

接口 速率 应用
SATA III 6 Gbps 桌面 / 入门企业
SAS 3.0 12 Gbps 企业级机械盘
SAS 4.0 22.5 Gbps 主流企业
NL-SAS SAS 接口 + SATA 颗粒 中容量企业

企业级 HDD 90%+ 是 SAS 接口——双端口、热插拔、高可靠。

HDD 的”分阶层”

企业级 HDD 不是一种产品,是几个层次:

等级 转速 容量 寿命/可靠性 用途
Enterprise Capacity(NL-SAS/SATA) 7200 12-30 TB 250 TB/年写入,5 年质保 数据中心冷数据主力
Enterprise Performance 10K/15K 600 GB-2.4 TB 高耐久 数据库(已被 SSD 取代)
Surveillance(监控) 5400/7200 8-22 TB 24×7 写入优化 监控 NVR
Archive(归档) 5400 大容量 SMR 写入少 冷归档
Desktop / NAS 5400/7200 1-22 TB 中等 个人 / SMB

数据中心对象存储集群(S3、OSS、Ceph)大量用 Enterprise Capacity NL-SAS 7200 rpm。

HDD 的”Zone”分配

近代企业 HDD 把盘面切分成多个 Zone(区域):

1
2
盘片外圈 → 高线速 → 高密度 → 高吞吐
盘片内圈 → 低线速 → 低密度 → 低吞吐

外圈 ZBR(Zone Bit Recording)扇区多,内圈少——所以同一颗盘前 10% 的 LBA 比后 10% 快约 30-50%。

数据库做 RAID 时常把”高优先级”数据放外圈(短行程,short-stroking)—— 但 SSD 时代这已经是历史了。

HDD 还会怎么活下去

graph TB
  Q1[2025 - 2030 真实需求]
  Q1 --> A1[超大规模冷存储
对象存储、数据湖、归档] Q1 --> A2[监控录像
低频访问、超大容量] Q1 --> A3[备份目标
磁带 + HDD] Q1 -.- B1[闪存价格继续下跌
HDD 边界向冷存储压缩] Q1 -.- B2[HAMR 50 TB 量产
每 TB 成本拉开]

短期内 HDD 不会被 QLC SSD 完全取代,因为 $/TB 还差 5-10 倍

1
2
22 TB 企业 HDD:~$400 → $18/TB
QLC SSD 30 TB: ~$3000 → $100/TB

待补充:以当前现货价格为准。

数据中心的 EB 级冷数据还得靠机械盘——这是 HDD 在未来 10 年的主战场。

一些实操命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 查看物理盘信息
sudo smartctl -i /dev/sda
sudo smartctl -a /dev/sda # 完整 SMART 数据

# 健康监控(关键 SMART 指标)
# - Reallocated_Sector_Ct 重映射扇区数
# - Current_Pending_Sector 待映射扇区数(坏块前兆)
# - Reported_Uncorrect 不可纠错的错
# - Power_On_Hours 累计运行时间

# 测顺序读写
sudo hdparm -tT /dev/sda # 缓冲读和原始读

# fio 测随机 IOPS
fio --name=test --filename=/dev/sda --rw=randread --bs=4k \
--iodepth=32 --runtime=60 --time_based --direct=1

小结

  • HDD 的核心约束是机械臂寻道——所以 IOPS 永远上不去
  • PMR 主流二十年,SMR 用密度换写入性能
  • HAMR/MAMR 是下一代,2024 起 Seagate Mozaic 3+ 已规模出货
  • 企业级 HDD 大都是 SAS 接口、7200 rpm、20-30 TB
  • 数据中心 EB 级冷数据需求让 HDD 在未来 10 年仍有大舞台
  • HDD 也分等级:性能盘已被 SSD 取代,但容量盘是冷存储绝对主力

下一篇讲 NAND 闪存——SSD 的物理基础。