AI 训练 vs 推理 —— 硬件视角的根本差异 训练和推理虽然都用 GPU,但对硬件的需求差异巨大——训练吃带宽和算力,推理吃显存和延迟。本文从硬件视角讲清两者差异。 2025-10-19 05-GPU与AI #训练 #推理 #FP8 #FP4 #KV-Cache
国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等 美国制裁让国产 AI 芯片"被动加速"。华为昇腾、寒武纪、摩尔线程、燧原、壁仞、海光各自走不同路线。本文盘点架构、生态和实际可用性。 2025-10-12 05-GPU与AI #昇腾 #寒武纪 #摩尔线程 #燧原 #壁仞 #海光
Intel Gaudi、Google TPU 与其他 AI 加速器 NVIDIA 之外,Google TPU 自用十多年,Intel Gaudi 主打性价比,AWS Trainium 自研降本,Cerebras/Groq 走另一条架构路线。本文盘点这些"非主流"AI 加速器。 2025-10-05 05-GPU与AI #Gaudi #TPU #Trainium #Cerebras #Groq
AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU" AMD MI300X 是过去十年第一次有非 NVIDIA GPU 能在 AI 大模型上"上规模",OpenAI、Meta、微软都买。本文讲清 AMD CDNA 架构、MI200/300/325/400 路线,以及 ROCm 软件栈的现状。 2025-09-28 05-GPU与AI #AMD #MI300 #ROCm #CDNA
NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU" 单卡再强一颗也跑不了 GPT-4。把几十、几百颗 GPU"连成一颗"是 AI 集群的核心问题。本文从 NVLink 1.0 讲到 NVL72 整机柜,看互联怎么从 PCIe 走到 NVSwitch Fabric。 2025-09-21 05-GPU与AI #NVLink #NVSwitch #NVL72 #互联
NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin V100 让 Tensor Core 进入数据中心,A100 把它做成主流,H100 用 FP8 引爆大模型,B200 把整机柜变成"一颗大 GPU"。本文按代次梳理 NVIDIA 数据中心 GPU 路线。 2025-09-14 05-GPU与AI #NVIDIA #H100 #B200 #Tensor Core
GPU 历史 —— 从图形到通用计算 1999 年 NVIDIA 注册了 "GPU" 这个词条,那时它只画三角形。25 年后 GPU 把数据中心彻底改写。本文回看 GPU 怎么从图形卡演变成 AI 算力主力。 2025-09-07 05-GPU与AI #GPU #CUDA #GPGPU
分布式存储入门 —— Ceph / HDFS / 对象存储 几百颗盘怎么组成一个池?多副本、纠删码、CAP 取舍是怎么做的?本文从 HDFS、Ceph、对象存储三种主流形态入手,讲分布式存储的核心机制,以及它和 SAN/NAS 的本质差别。 2025-08-17 04-存储 #分布式存储 #Ceph #HDFS #对象存储
RAID 与企业级存储 —— 从单盘到存储阵列 单盘再贵也会坏。把多盘组合在一起容错、加速,是 RAID 几十年没变的核心思想。本文讲 RAID 0/1/5/6/10、硬 RAID vs 软 RAID、RAID 在 SSD 时代的尴尬,以及 SAN/NAS 的角色。 2025-08-10 04-存储 #RAID #SAN #NAS #存储阵列