Intel Gaudi、Google TPU 与其他 AI 加速器
NVIDIA 之外的 AI 算力方案分两类:一类是”通用 GPU 替代”(Intel Gaudi、AMD MI),一类是”专用架构”(TPU、Trainium、Cerebras、Groq)。后者在特定场景能赢 NVIDIA,但通用性差。本文盘点。
一张全景
graph TB AI[AI 加速器] AI --> GPU[GPU 路线
通用并行] AI --> ASIC[ASIC 路线
专用矩阵] AI --> WAFER[Wafer-Scale
整片晶圆] AI --> DATAFLOW[Dataflow
数据流架构] GPU --> N[NVIDIA H100/B200] GPU --> A[AMD MI300] GPU --> I[Intel Gaudi/PVC] ASIC --> TPU[Google TPU] ASIC --> TRN[AWS Trainium] ASIC --> META[Meta MTIA] WAFER --> CB[Cerebras WSE] DATAFLOW --> GROQ[Groq LPU] DATAFLOW --> SN[SambaNova]
Intel Gaudi 系列
Gaudi 是 Intel 2019 年收购 Habana Labs(以色列)后的核心 AI 产品。和 Intel 自家 Xe GPU 路线(Ponte Vecchio)并行。
Gaudi 2(2022)
| 制程 | TSMC 7nm |
| 显存 | 96 GB HBM2e,2.45 TB/s |
| BF16 算力 | ~432 TFLOPS |
| 互联 | 24× 100GbE 集成在芯片上 |
| TDP | 600W |
Gaudi 2 的特点是把 RoCE 网卡直接集成到 AI 芯片里——不需要单独的 IB / 以太网卡,省一笔成本。
Gaudi 3(2024)
| 制程 | TSMC 5nm |
| 显存 | 128 GB HBM2e,3.7 TB/s |
| BF16 / FP8 算力 | 1.8 / 1.8 PFLOPS |
| 互联 | 24× 200GbE |
| TDP | 900W |
Gaudi 3 主打”对位 H100、价格更低”——Intel 公开宣称 1.5× H100 推理性价比。
Gaudi 的市场定位
1 | |
待补充:Gaudi 系列 2025-2026 年实际出货情况。Intel 2024 年传出可能整合 Gaudi 与 Xe GPU 路线,最终方向待定。
Intel Xe GPU(Ponte Vecchio / Falcon Shores)
Intel 自家 GPU 路线分两条:
1 | |
Ponte Vecchio (PVC)(Data Center GPU Max 系列)2022 年发布:
| 制程 | Intel 7 + TSMC N5 + N7(多 chiplet) |
| 结构 | 47 颗 chiplet 拼接,1000+ 亿晶体管 |
| 显存 | 128 GB HBM2e |
| FP64 算力 | 52 TFLOPS |
| 互联 | Xe Link |
PVC 装进了 Aurora 超算(阿贡国家实验室)——美国第二台 ExaFLOP 级超算。
但 PVC 在 AI 市场反响平淡——Intel 2024 年宣布取消 Falcon Shores 的 GPU 路线,转向 Gaudi 路线。Xe HPC 实际上已经”产品线收摊”。
待补充:Intel Falcon Shores / Jaguar Shores 后续路线图——2025 年 Intel 整体重组后变化较多。
Google TPU
TPU = Tensor Processing Unit,Google 自研,只在 Google Cloud 内部用 + 通过 GCP 出租,不对外卖芯片。
TPU 演进
graph LR T1[TPU v1
2015
仅推理 INT8] --> T2[TPU v2
2017
训练 BF16] T2 --> T3[TPU v3
2018
液冷] T3 --> T4[TPU v4
2021
OCS 光交换] T4 --> T5[TPU v5e/v5p
2023] T5 --> T6[TPU v6 / Trillium
2024] T6 --> T7[TPU v7
2025+]
TPU v4(2021)
| 制程 | 7nm |
| 算力 | BF16 275 TFLOPS / chip |
| 显存 | 32 GB HBM |
| 互联 | 3D Torus + 光交换 OCS |
| Pod | 4096 chips / pod |
TPU v4 引入了 OCS(Optical Circuit Switch,光交换机)——通过物理切换光纤路径来动态重配集群拓扑,避免传统电交换机的延迟和功耗。
TPU v5e / v5p(2023)
1 | |
v5p 单 Pod 8960 chip × 459 TFLOPS BF16 = ~4 EFLOPS——和 NVIDIA SuperPOD 量级相当。
TPU Trillium(v6,2024)
1 | |
待补充:Trillium 详细规格 + TPU v7 路线图。
TPU 的工程哲学
graph TB D1[只为 Google 自己优化
不需要兼顾客户] D2[Systolic Array 阵列
专为矩阵乘设计] D3[整集群协同设计
OCS + 3D Torus] D4[只支持 TF/JAX/XLA
不需要 PyTorch 全套] D1 --> R[10 年迭代] D2 --> R D3 --> R D4 --> R R[每代算力涨 2-5×]
TPU 是 Google 自己的”垂直整合”案例——硬件 + 编译器(XLA)+ 框架(JAX/TF)+ 数据中心(OCS)全栈协同。这是为什么 TPU 在某些 workload 上效率比 GPU 高。
TPU 用户能不能用
1 | |
AWS Trainium / Inferentia
AWS 自研 AI 芯片,类似 Google TPU 路线——只在 AWS 内部用:
| 系列 | 用途 | 代次 |
|---|---|---|
| Inferentia 1 | 推理 | 2019 |
| Inferentia 2 | 推理 | 2023 |
| Trainium 1 | 训练 | 2022 |
| Trainium 2 | 训练 | 2024 |
Trainium 2
1 | |
Trainium 2 的 UltraCluster 用于 AWS 内部和 Anthropic 等客户训练大模型。
待补充:Trainium 3 路线图——AWS re:Invent 2025 公布。
Meta MTIA
Meta(Facebook)也自研 AI 芯片:
1 | |
MTIA 用于 Meta 自家推荐系统——Llama 大模型训练仍然主要用 NVIDIA H100。
待补充:MTIA 内部部署规模,对外披露有限。
Cerebras WSE:整片晶圆做一颗芯片
Cerebras 走的路线非常独特——不切晶圆,整片当一颗芯片用:
| WSE-3(2024) | |
|---|---|
| 尺寸 | 46225 mm²(H100 的 57 倍) |
| 晶体管 | 4 万亿 |
| Core 数 | 90 万 |
| SRAM | 44 GB on-chip |
| 算力 | FP16 125 PFLOPS / 单片 |
WSE-3 一颗整片晶圆做成的芯片——没有传统的 chip-to-chip 通信瓶颈。所有 90 万 core 通过 on-die mesh 互联,延迟纳秒级。
graph TB
subgraph WSE["1 颗 WSE-3 = 1 整片 12 寸晶圆"]
direction TB
C[90 万 core × 44 GB SRAM]
C2[on-die mesh 互联,无外部 PCIe/NVLink]
end
Cerebras 适用场景
1 | |
Cerebras 客户主要在科研机构、能源公司、政府客户。商用大厂不多。
待补充:CS-3 系统出货量和实际训练业绩。
Groq LPU:推理专用的”数据流”架构
Groq 的 LPU(Language Processing Unit) 是推理专用芯片,2024 年靠 Llama 3 推理 demo 出圈:
| 架构 | Tensor Streaming Processor (TSP) |
| 制程 | 14nm(v1)/ 4nm(v2) |
| 片上 SRAM | 230 MB |
| 特点 | 完全确定性执行,编译时静态调度 |
Groq 的杀手锏
1 | |
但 Groq 的限制:
1 | |
Groq Cloud 现在是开发者推理大模型最便宜的服务之一。
待补充:Groq v2 芯片量产和成本结构。
SambaNova
SambaNova SN40L 也是数据流架构,但和 Groq 思路略不同——Reconfigurable Dataflow Architecture:
1 | |
SambaNova 客户主要是金融、政府、生命科学——走的是”AI 一体机”+ 服务路线,不像 NVIDIA 卖芯片。
待补充:SambaNova SN40L 实际部署规模。
一些小众但活跃的厂家
1 | |
待补充:这些公司 2025-2026 年的商业进展——AI 芯片创业生死轮替较快。
NVIDIA 之外的几条路线总结
graph TB R1[完全替代 GPU
AMD MI / Intel Gaudi] R2[云厂自研 ASIC
TPU / Trainium / MTIA] R3[Wafer-Scale
Cerebras] R4[推理专用 ASIC
Groq / SambaNova] R5[创业公司
Tenstorrent / d-Matrix] R1 --> S1[卖通用芯片
对接 PyTorch] R2 --> S2[只自家用 / 出租云] R3 --> S3[卖整机
科研/政府客户] R4 --> S4[卖云推理服务] R5 --> S5[小众客户
赌长期]
各家适用场景速查
| 你是 | 推荐 |
|---|---|
| 互联网大厂训练大模型 | NVIDIA H100/B200(默认)+ AMD MI300X 试点 |
| 推理为主、显存压力大 | AMD MI300X / NVIDIA H200 |
| 训练成本敏感 | Intel Gaudi 2/3、AWS Trainium |
| 用 GCP 训练 | Google TPU v5p / Trillium |
| 推理延迟极致 | Groq Cloud(按 API 用) |
| 单模型超大 | Cerebras CS-3(科研客户) |
| 政府 / 金融垂直 | SambaNova DataScale |
| edge 端推理 | NVIDIA Jetson、Mythic、d-Matrix |
| 国产化要求 | 见下一篇 |
一些查询命令
1 | |
软件栈对比
graph TB PT[PyTorch / TensorFlow / JAX] PT --> CUDA[NVIDIA: CUDA + cuDNN + NCCL] PT --> ROCm[AMD: ROCm + RCCL] PT --> SYNAPSE[Intel Gaudi: SynapseAI] PT --> XLA[Google TPU: XLA + JAX] PT --> NEURON[AWS: Neuron SDK] PT --> MTIA_SW[Meta: PyTorch backend] PT --> CB_SW[Cerebras: Cerebras SDK] PT --> GROQ_SW[Groq: Groq Compiler]
PyTorch 现在是事实上的”最大公约数”——所有非 NVIDIA 加速器都把”PyTorch 后端能跑”作为生态目标,但实际成熟度差异很大。
实际选型的现实
1 | |
待补充:2025 年云厂 AI 芯片实际部署比例最新数据。
小结
- Intel Gaudi 走”低价对标 H100”路线,但生态仍在追
- Google TPU 已经迭代 7 代,是非 GPU 路线最成熟的
- AWS Trainium 主要服务 Anthropic 等大客户
- Cerebras 整片晶圆是另一种思路,适合超大模型
- Groq / SambaNova 各自有数据流架构的延迟优势
- PyTorch 后端兼容是所有非 NVIDIA 厂家的生态门槛
下一篇讲国产 AI 芯片——昇腾、寒武纪、摩尔线程、燧原、壁仞、海光等。