服务器基础知识全解

AI 训练 vs 推理 —— 硬件视角的根本差异

训练和推理虽然都用 GPU，但对硬件的需求差异巨大——训练吃带宽和算力，推理吃显存和延迟。本文从硬件视角讲清两者差异。

2025-10-19

05-GPU与AI

#训练 #推理 #FP8 #FP4 #KV-Cache

国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等

美国制裁让国产 AI 芯片"被动加速"。华为昇腾、寒武纪、摩尔线程、燧原、壁仞、海光各自走不同路线。本文盘点架构、生态和实际可用性。

2025-10-12

05-GPU与AI

#昇腾 #寒武纪 #摩尔线程 #燧原 #壁仞 #海光

Intel Gaudi、Google TPU 与其他 AI 加速器

NVIDIA 之外，Google TPU 自用十多年，Intel Gaudi 主打性价比，AWS Trainium 自研降本，Cerebras/Groq 走另一条架构路线。本文盘点这些"非主流"AI 加速器。

2025-10-05

05-GPU与AI

#Gaudi #TPU #Trainium #Cerebras #Groq

AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU"

AMD MI300X 是过去十年第一次有非 NVIDIA GPU 能在 AI 大模型上"上规模"，OpenAI、Meta、微软都买。本文讲清 AMD CDNA 架构、MI200/300/325/400 路线，以及 ROCm 软件栈的现状。

2025-09-28

05-GPU与AI

#AMD #MI300 #ROCm #CDNA

NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU"

单卡再强一颗也跑不了 GPT-4。把几十、几百颗 GPU"连成一颗"是 AI 集群的核心问题。本文从 NVLink 1.0 讲到 NVL72 整机柜，看互联怎么从 PCIe 走到 NVSwitch Fabric。

2025-09-21

05-GPU与AI

#NVLink #NVSwitch #NVL72 #互联

NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin

V100 让 Tensor Core 进入数据中心，A100 把它做成主流，H100 用 FP8 引爆大模型，B200 把整机柜变成"一颗大 GPU"。本文按代次梳理 NVIDIA 数据中心 GPU 路线。

2025-09-14

05-GPU与AI

#NVIDIA #H100 #B200 #Tensor Core

GPU 历史 —— 从图形到通用计算

1999 年 NVIDIA 注册了 "GPU" 这个词条，那时它只画三角形。25 年后 GPU 把数据中心彻底改写。本文回看 GPU 怎么从图形卡演变成 AI 算力主力。

2025-09-07

05-GPU与AI

#GPU #CUDA #GPGPU

存储选型实战与第四章小结

把第四章七篇连起来——按业务负载实际怎么选盘、怎么组阵列、什么时候上分布式。本篇是第四章收口。

2025-08-24

04-存储

#存储选型 #第四章小结

分布式存储入门 —— Ceph / HDFS / 对象存储

几百颗盘怎么组成一个池？多副本、纠删码、CAP 取舍是怎么做的？本文从 HDFS、Ceph、对象存储三种主流形态入手，讲分布式存储的核心机制，以及它和 SAN/NAS 的本质差别。

2025-08-17

04-存储

#分布式存储 #Ceph #HDFS #对象存储

RAID 与企业级存储 —— 从单盘到存储阵列

单盘再贵也会坏。把多盘组合在一起容错、加速，是 RAID 几十年没变的核心思想。本文讲 RAID 0/1/5/6/10、硬 RAID vs 软 RAID、RAID 在 SSD 时代的尴尬，以及 SAN/NAS 的角色。

2025-08-10

04-存储

#RAID #SAN #NAS #存储阵列