存储选型实战与第四章小结

第四章前面七篇分别讲了 HDD 物理基础、NAND 颗粒、SSD 控制器/FTL、接口演进、企业 vs 消费 SSD、RAID/集中式存储、分布式存储。本篇收口。

选盘的”五层决策”

graph TD
  Q1[第 1 层: 介质?]
  Q1 --> A1[HDD / TLC SSD / QLC SSD]
  Q1 --> Q2[第 2 层: 接口?]
  Q2 --> A2[SATA / SAS / NVMe / NVMe-oF]
  Q2 --> Q3[第 3 层: 形态?]
  Q3 --> A3[3.5 / U.2 / E1.S / E3.S / E3.L]
  Q3 --> Q4[第 4 层: 寿命/可靠性?]
  Q4 --> A4[DWPD / PLP / 双端口]
  Q4 --> Q5[第 5 层: 怎么组?]
  Q5 --> A5[单盘 / RAID / 分布式]

第 1 层:介质

按业务对 IOPS / 容量 / 写入率的偏好:

业务 IOPS 需求 容量 / 写入 推荐介质
OLTP 数据库主存 极高 中 / 高写 TLC NVMe(WI)
数据仓库 / 列存 大容量 / 低写 TLC NVMe(RI/MU)
Redis / KV 极高 TLC NVMe(WI)
Kafka / 日志 大容量 / 高写 TLC NVMe(MU/WI)
Web / API TLC NVMe / SATA SSD
AI 训练数据集 高(顺序) 超大容量 QLC NVMe E3.L
对象存储 / 数据湖 海量 QLC + HDD 混合
监控录像 低(顺序) 海量 HDD(SATA / NL-SAS)
冷归档 极低 海量 HDD SMR / 磁带

经验法则:

1
2
3
4
延迟敏感 < 10 ms → SSD 必须
随机 IOPS > 1000 → SSD 必须
冷数据 + $/TB 敏感 → HDD(仍然便宜 5-10 倍)
温数据 + 大容量 → QLC SSD

第 2 层:接口

1
2
3
4
NVMe 是 2026 年所有新建系统的默认
SAS 仍主导大容量 HDD
SATA 退出企业级新部署
NVMe-oF 用于存算分离

新购所有 SSD = NVMe——没必要再上 SATA/SAS SSD。

HDD 选 SAS / NL-SAS(SATA HDD 不适合大量并发)。

第 3 层:形态

graph TD
  Q1[1U 高密度] --> E1[E1.S × 16-32]
  Q2[2U 通用] --> E3[E3.S × 24]
  Q3[2U 大容量] --> EL[E3.L × 24 或 3.5'' HDD × 12]
  Q4[超大容量节点] --> JBOF[JBOF / EBOF + 80+ 盘]
  Q5[启动盘] --> M2[M.2 BOSS]

新机型优先 EDSFF(E1.S / E3.S);老机型用 U.2。

第 4 层:寿命和可靠性

DWPD 必须按业务匹配:

1
2
DWPD < 业务实际写入率 → SSD 提前报废
DWPD ≫ 业务实际写入率 → 钱花多了

例:某 OLTP 数据库每日写 4 TB,2 副本写到 SSD:

1
2
3
4
每盘日写 = 4 TB / 节点数
若节点 4 盘 → 每盘 1 TB/天
1 TB SSD DWPD=1 → 刚好够
1 TB SSD DWPD=3 → 余量充裕

可靠性硬指标:

  • PLP:服务器 SSD 必须有
  • UBER:1e-17 级别(企业 NVMe)
  • MTBF:200-250 万小时
  • 温度:机柜内 50-65°C 稳定运行

第 5 层:怎么组

graph TD
  Q1[规模?]
  Q1 -- "单机, 几盘" --> S1[本地 RAID 1/10]
  Q1 -- "几台, 共享存储" --> S2[SAN / AFA]
  Q1 -- "几十+ 台" --> S3[分布式 Ceph / 对象]
  Q1 -- "云原生 K8s" --> S4[CSI 后端: Ceph RBD / 块存储 / 本地 PV]

冗余策略对应:

1
2
3
4
5
本地 RAID:           RAID 1 / RAID 10(HDD 容量盘可考虑 RAID 6)
SAN AFA: 厂商默认(多副本 / RAID)
分布式(热数据): 3 副本
分布式(温/冷): EC(8+4) 或 EC(10+4)
对象存储(冷): EC + 跨可用区

几个常见的”存储坑”

坑 1: 拿消费级 SSD 上数据库

无 PLP → 一次掉电 L2P 损坏 → 整盘报废 → 数据全无。绝对禁止

坑 2: 大容量 HDD 用 RAID 5

22 TB SAS HDD 重建 30+ 小时,期间 URE 必然发生。容量 > 4 TB 用 RAID 6

坑 3: NVMe SSD 接 RAID 卡

RAID 卡的 SoC 跟不上 PCIe 5.0 NVMe 带宽。考虑:

  • VROC / NVMe RAID(CPU 软件 RAID)
  • mdadm / ZFS 软 RAID
  • 完全去 RAID,靠分布式存储多副本

坑 4: 热数据用 EC

EC 小写放大严重——OLTP 上 EC 性能直接崩。EC 只用于冷数据 / 大块顺序

坑 5: 小文件存 HDFS

HDFS NameNode 每文件占内存 ~150 byte——亿级小文件吃光 NameNode。小文件用对象存储

坑 6: 不监控 SSD 寿命

1
2
# 至少把以下指标接入监控
nvme smart-log /dev/nvme0 | grep -E "percentage_used|media_errors"

percentage_used > 80% 就要准备换。

坑 7: 不留 SSD 空间

SSD 用满 95% 后 GC 急剧恶化,寿命也下降。保留 20% 空闲

一台典型 AI 服务器的存储清单

例:1 台 8× H100/B200 训练节点

1
2
3
4
5
启动盘:           2 × M.2 NVMe 480GB(RAID 1 软件)
本地高速 scratch: 4 × E3.S NVMe 7.68TB TLC MU = 30 TB
(fp16 模型 checkpoint、训练中间结果)
数据集分布式: 集群级别 Ceph / 对象存储
(PB 级训练语料)

一台典型 OLTP 数据库节点的存储清单

1
2
3
4
OS / 日志:    2 × M.2 NVMe 960GB(RAID 1)
WAL / Redo: 2 × E3.S NVMe 1.92TB TLC WI(RAID 1,DWPD=10)
数据: 8 × E3.S NVMe 7.68TB TLC MU(RAID 10,DWPD=3)
备份目标: 冷 SAS HDD 阵列或对象存储

一台典型对象存储节点的存储清单

1
2
3
4
5
OS / 元数据:  2 × M.2 NVMe 480GB(RAID 1)
对象数据: 12-24 × 22TB SAS HDD(NL-SAS 7200rpm)
+ 2-4 × E3.S NVMe 用于元数据 / 缓存
EC 配置: 跨节点 EC(10+4)
单机有效容量: ~250-500 TB

一些性能直觉数字

1
2
3
4
5
6
7
8
NVMe 4K 随机读:    100-1000 万 IOPS / 节点(多盘聚合)
NVMe 顺序读: 14 GB/s / PCIe 5.0 ×4 单盘
Ceph RBD 4K 读: 单 OSD ~5K IOPS, 集群线性
HDD 4K 随机: 100-200 IOPS / 盘
HDD 顺序: 200-300 MB/s / 盘
SAN AFA 4K: 100-500 万 IOPS / 阵列
S3 GET: 30-100 ms / 对象
NVMe-oF: ~120-150 μs 跨网延迟

国产化存储清单要点

国产化 状态
HDD 不强求(市场份额小) 国际三家(西数/希捷/东芝)
NAND 颗粒 长江存储(YMTC) 主流容量已自研
控制器 联芸/得一微/忆联/忆芯 中端 OK,旗舰追赶中
整盘 SSD 大普微/忆联/浪潮/华为 已成熟
RAID 卡 国产较少 仍以 Broadcom/Microchip 为主
HBA / NVMe Switch 国产化进行中 -
分布式存储 浪潮 AS、华为、深信服、XSky 充分国产化
对象存储 全部国产可用 -

待补充:你公司国产化采购清单。

第四章整体小结

回看第四章覆盖:

  1. HDD 物理基础 — 盘片磁头、PMR/SMR/HAMR
  2. NAND 闪存 — SLC 到 PLC、3D NAND 232 层
  3. SSD 控制器与 FTL — 映射、GC、磨损均衡、PLP
  4. 存储接口 — SATA/SAS/NVMe,EDSFF
  5. 企业 vs 消费 SSD — DWPD、PLP、QoS
  6. RAID 与企业存储 — RAID 0-10、SAN/NAS、AFA
  7. 分布式存储 — HDFS / Ceph / 对象存储
  8. 存储选型与小结(本篇)

几条贯穿全章的主线:

graph LR
  HDD[HDD] --> SSD[SSD]
  SSD --> NVMe[NVMe + EDSFF]
  RAID[RAID 单机] --> SAN[SAN AFA]
  SAN --> DIST[分布式 Ceph / S3]
  HDD -.- DIST
  NVMe -.- DIST

本质上是同一个问题在不同尺度上解决

  • 单盘:颗粒 + 控制器 + FTL 把 NAND 变成可用块设备
  • 单机:RAID 把多盘组成可靠虚拟卷
  • 数据中心:分布式存储把上百节点的盘组成 EB 级池

存储未来的几个趋势:

  • EDSFF 取代 U.2——形态层面的洗牌
  • QLC 上量——容量替代 HDD 的临界点
  • 分布式 + 对象存储 + 数据湖——传统 SAN/NAS 萎缩
  • NVMe-oF 普及——存算分离的关键基础设施
  • AI 推动存储——大模型训练对带宽和容量的双重压力

下一章进入第五章 GPU 和 AI 加速——这是现代数据中心增长最猛、技术变化最快的方向。我会重点讲:

  • GPU 历史和图形→通用计算的转折
  • NVIDIA 数据中心 GPU 路线(Volta → Ampere → Hopper → Blackwell → Rubin)
  • AMD MI 系列、Intel Gaudi/GPU
  • 国产 AI 加速器(昇腾、寒武纪、摩尔线程、燧原、壁仞、海光)
  • TPU 等专用加速器
  • NVLink / NVSwitch / NVL72 整机柜
  • AI 推理和训练的硬件差异
  • 显存(HBM)和 KV-Cache 视角
  • 集群 + InfiniBand 的关系