Intel Gaudi、Google TPU 与其他 AI 加速器

NVIDIA 之外的 AI 算力方案分两类:一类是”通用 GPU 替代”(Intel Gaudi、AMD MI),一类是”专用架构”(TPU、Trainium、Cerebras、Groq)。后者在特定场景能赢 NVIDIA,但通用性差。本文盘点。

一张全景

graph TB
  AI[AI 加速器]
  AI --> GPU[GPU 路线
通用并行] AI --> ASIC[ASIC 路线
专用矩阵] AI --> WAFER[Wafer-Scale
整片晶圆] AI --> DATAFLOW[Dataflow
数据流架构] GPU --> N[NVIDIA H100/B200] GPU --> A[AMD MI300] GPU --> I[Intel Gaudi/PVC] ASIC --> TPU[Google TPU] ASIC --> TRN[AWS Trainium] ASIC --> META[Meta MTIA] WAFER --> CB[Cerebras WSE] DATAFLOW --> GROQ[Groq LPU] DATAFLOW --> SN[SambaNova]

Intel Gaudi 系列

Gaudi 是 Intel 2019 年收购 Habana Labs(以色列)后的核心 AI 产品。和 Intel 自家 Xe GPU 路线(Ponte Vecchio)并行。

Gaudi 2(2022)

制程 TSMC 7nm
显存 96 GB HBM2e,2.45 TB/s
BF16 算力 ~432 TFLOPS
互联 24× 100GbE 集成在芯片上
TDP 600W

Gaudi 2 的特点是把 RoCE 网卡直接集成到 AI 芯片里——不需要单独的 IB / 以太网卡,省一笔成本。

Gaudi 3(2024)

制程 TSMC 5nm
显存 128 GB HBM2e,3.7 TB/s
BF16 / FP8 算力 1.8 / 1.8 PFLOPS
互联 24× 200GbE
TDP 900W

Gaudi 3 主打”对位 H100、价格更低”——Intel 公开宣称 1.5× H100 推理性价比。

Gaudi 的市场定位

1
2
3
4
5
6
7
优势:     价格便宜(约 H100 的 60-70%)
网卡集成省一道成本
PyTorch 支持基本可用

劣势: 生态远不如 CUDA
训练框架支持有限
路线图和未来不明朗(Intel 整体重组)

待补充:Gaudi 系列 2025-2026 年实际出货情况。Intel 2024 年传出可能整合 Gaudi 与 Xe GPU 路线,最终方向待定。

Intel Xe GPU(Ponte Vecchio / Falcon Shores)

Intel 自家 GPU 路线分两条:

1
2
Xe-LP / Xe-HPG:消费级(Arc 系列)
Xe-HP / Xe-HPC:数据中心(Ponte Vecchio)

Ponte Vecchio (PVC)(Data Center GPU Max 系列)2022 年发布:

制程 Intel 7 + TSMC N5 + N7(多 chiplet)
结构 47 颗 chiplet 拼接,1000+ 亿晶体管
显存 128 GB HBM2e
FP64 算力 52 TFLOPS
互联 Xe Link

PVC 装进了 Aurora 超算(阿贡国家实验室)——美国第二台 ExaFLOP 级超算。

但 PVC 在 AI 市场反响平淡——Intel 2024 年宣布取消 Falcon Shores 的 GPU 路线,转向 Gaudi 路线。Xe HPC 实际上已经”产品线收摊”。

待补充:Intel Falcon Shores / Jaguar Shores 后续路线图——2025 年 Intel 整体重组后变化较多。

Google TPU

TPU = Tensor Processing Unit,Google 自研,只在 Google Cloud 内部用 + 通过 GCP 出租,不对外卖芯片。

TPU 演进

graph LR
  T1[TPU v1
2015
仅推理 INT8] --> T2[TPU v2
2017
训练 BF16] T2 --> T3[TPU v3
2018
液冷] T3 --> T4[TPU v4
2021
OCS 光交换] T4 --> T5[TPU v5e/v5p
2023] T5 --> T6[TPU v6 / Trillium
2024] T6 --> T7[TPU v7
2025+]

TPU v4(2021)

制程 7nm
算力 BF16 275 TFLOPS / chip
显存 32 GB HBM
互联 3D Torus + 光交换 OCS
Pod 4096 chips / pod

TPU v4 引入了 OCS(Optical Circuit Switch,光交换机)——通过物理切换光纤路径来动态重配集群拓扑,避免传统电交换机的延迟和功耗。

TPU v5e / v5p(2023)

1
2
v5e(efficiency):推理 + 中等训练,性价比导向
v5p(performance):超大模型训练,对标 H100

v5p 单 Pod 8960 chip × 459 TFLOPS BF16 = ~4 EFLOPS——和 NVIDIA SuperPOD 量级相当。

TPU Trillium(v6,2024)

1
2
3
4
5
Trillium:
4.7× v5e 算力(每芯片)
HBM3,带宽翻倍
ICI(Inter-Chip Interconnect)3.0
目标:内部 Gemini 训练 + Cloud TPU 出租

待补充:Trillium 详细规格 + TPU v7 路线图。

TPU 的工程哲学

graph TB
  D1[只为 Google 自己优化
不需要兼顾客户] D2[Systolic Array 阵列
专为矩阵乘设计] D3[整集群协同设计
OCS + 3D Torus] D4[只支持 TF/JAX/XLA
不需要 PyTorch 全套] D1 --> R[10 年迭代] D2 --> R D3 --> R D4 --> R R[每代算力涨 2-5×]

TPU 是 Google 自己的”垂直整合”案例——硬件 + 编译器(XLA)+ 框架(JAX/TF)+ 数据中心(OCS)全栈协同。这是为什么 TPU 在某些 workload 上效率比 GPU 高。

TPU 用户能不能用

1
2
3
4
方式 1:Google Cloud TPU 实例(v5e/v5p/Trillium)
方式 2:Google 内部团队(Bard/Gemini 训练)
方式 3:Kaggle 免费 TPU 配额(非常有限)
不能买芯片本身

AWS Trainium / Inferentia

AWS 自研 AI 芯片,类似 Google TPU 路线——只在 AWS 内部用

系列 用途 代次
Inferentia 1 推理 2019
Inferentia 2 推理 2023
Trainium 1 训练 2022
Trainium 2 训练 2024

Trainium 2

1
2
3
4
5
单芯片 BF16 算力:~1.3 PFLOPS
单芯片 FP8: ~2.6 PFLOPS
单芯片 HBM: 96 GB
互联: NeuronLink-v3
集群: UltraCluster 100K+ chip

Trainium 2 的 UltraCluster 用于 AWS 内部和 Anthropic 等客户训练大模型。

待补充:Trainium 3 路线图——AWS re:Invent 2025 公布。

Meta MTIA

Meta(Facebook)也自研 AI 芯片:

1
2
3
MTIA v1(2023):推理 + 内部推荐系统
MTIA v2(2024):性能翻倍,扩展到训练
MTIA v3(2025):详细规格待补

MTIA 用于 Meta 自家推荐系统——Llama 大模型训练仍然主要用 NVIDIA H100。

待补充:MTIA 内部部署规模,对外披露有限。

Cerebras WSE:整片晶圆做一颗芯片

Cerebras 走的路线非常独特——不切晶圆,整片当一颗芯片用

WSE-3(2024)
尺寸 46225 mm²(H100 的 57 倍)
晶体管 4 万亿
Core 数 90 万
SRAM 44 GB on-chip
算力 FP16 125 PFLOPS / 单片

WSE-3 一颗整片晶圆做成的芯片——没有传统的 chip-to-chip 通信瓶颈。所有 90 万 core 通过 on-die mesh 互联,延迟纳秒级。

graph TB
  subgraph WSE["1 颗 WSE-3 = 1 整片 12 寸晶圆"]
    direction TB
    C[90 万 core × 44 GB SRAM]
    C2[on-die mesh 互联,无外部 PCIe/NVLink]
  end

Cerebras 适用场景

1
2
3
4
5
6
7
优势:     超大模型推理(70B、175B)
单"芯片"装得下整个模型权重
编程模型简单(没有 NVLink/MPI)

劣势: 训练侧不如 GPU 集群成熟
一台 CS-3 系统约 2-3 百万美元
散热和供电极端

Cerebras 客户主要在科研机构、能源公司、政府客户。商用大厂不多。

待补充:CS-3 系统出货量和实际训练业绩。

Groq LPU:推理专用的”数据流”架构

Groq 的 LPU(Language Processing Unit) 是推理专用芯片,2024 年靠 Llama 3 推理 demo 出圈:

架构 Tensor Streaming Processor (TSP)
制程 14nm(v1)/ 4nm(v2)
片上 SRAM 230 MB
特点 完全确定性执行,编译时静态调度

Groq 的杀手锏

1
2
3
4
延迟极低:Llama 3 70B 推理 ~250-500 token/s(H100 ~40-80 token/s)
原因: 230 MB SRAM 一次装下激活
无 KV-Cache 在 HBM 的来回搬运
编译器静态调度,零动态决策

但 Groq 的限制:

1
2
3
4
权重不能太大(230 MB SRAM 装不下 70B 全权重)
要靠多片协作,每芯片只装一层 → 集群规模线性扩
没有训练能力
单纯推理 ASIC

Groq Cloud 现在是开发者推理大模型最便宜的服务之一。

待补充:Groq v2 芯片量产和成本结构。

SambaNova

SambaNova SN40L 也是数据流架构,但和 Groq 思路略不同——Reconfigurable Dataflow Architecture

1
2
3
4
5
6
7
特点:     编译时把神经网络"展开"成 dataflow graph
硬件配置成对应拓扑后执行
支持训练 + 推理
对标 GPU 集群

商业模式: 打包"DataScale"系统(一柜 8 卡)
按月租用 + 软件订阅

SambaNova 客户主要是金融、政府、生命科学——走的是”AI 一体机”+ 服务路线,不像 NVIDIA 卖芯片。

待补充:SambaNova SN40L 实际部署规模。

一些小众但活跃的厂家

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Tenstorrent(Jim Keller 的公司)
Wormhole / Blackhole 系列,开源生态
RISC-V + Tensix Core
目标:开放架构对抗 NVIDIA

Graphcore(英国)
IPU(Intelligence Processing Unit)
曾估值 28 亿美元,2024 年被软银收购
路线已大幅收缩

Mythic
模拟计算 IMC(in-memory compute)
超低功耗 edge 推理

d-Matrix
in-memory compute + chiplet
专注大模型推理

Rain AI
类脑 / 模拟计算

Lightmatter / Lightelligence
光计算

待补充:这些公司 2025-2026 年的商业进展——AI 芯片创业生死轮替较快。

NVIDIA 之外的几条路线总结

graph TB
  R1[完全替代 GPU
AMD MI / Intel Gaudi] R2[云厂自研 ASIC
TPU / Trainium / MTIA] R3[Wafer-Scale
Cerebras] R4[推理专用 ASIC
Groq / SambaNova] R5[创业公司
Tenstorrent / d-Matrix] R1 --> S1[卖通用芯片
对接 PyTorch] R2 --> S2[只自家用 / 出租云] R3 --> S3[卖整机
科研/政府客户] R4 --> S4[卖云推理服务] R5 --> S5[小众客户
赌长期]

各家适用场景速查

你是 推荐
互联网大厂训练大模型 NVIDIA H100/B200(默认)+ AMD MI300X 试点
推理为主、显存压力大 AMD MI300X / NVIDIA H200
训练成本敏感 Intel Gaudi 2/3、AWS Trainium
用 GCP 训练 Google TPU v5p / Trillium
推理延迟极致 Groq Cloud(按 API 用)
单模型超大 Cerebras CS-3(科研客户)
政府 / 金融垂直 SambaNova DataScale
edge 端推理 NVIDIA Jetson、Mythic、d-Matrix
国产化要求 见下一篇

一些查询命令

1
2
3
4
5
6
7
8
9
10
11
12
13
# Intel Gaudi
hl-smi # 类似 nvidia-smi
hl-smi -q # 详细查询

# AWS Neuron
neuron-ls # 列出 Trainium / Inferentia
neuron-top # 实时利用率

# Google TPU(在 GCP TPU VM 上)
gcloud compute tpus tpu-vm describe <NAME>
python -c "import jax; print(jax.devices())" # 看到 TpuDevice

# Cerebras / Groq / SambaNova 一般通过云 API 直接用

软件栈对比

graph TB
  PT[PyTorch / TensorFlow / JAX]

  PT --> CUDA[NVIDIA: CUDA + cuDNN + NCCL]
  PT --> ROCm[AMD: ROCm + RCCL]
  PT --> SYNAPSE[Intel Gaudi: SynapseAI]
  PT --> XLA[Google TPU: XLA + JAX]
  PT --> NEURON[AWS: Neuron SDK]
  PT --> MTIA_SW[Meta: PyTorch backend]
  PT --> CB_SW[Cerebras: Cerebras SDK]
  PT --> GROQ_SW[Groq: Groq Compiler]

PyTorch 现在是事实上的”最大公约数”——所有非 NVIDIA 加速器都把”PyTorch 后端能跑”作为生态目标,但实际成熟度差异很大。

实际选型的现实

1
2
3
4
5
6
7
8
9
10
11
12
2026 年现实:
- NVIDIA:90%+ 大模型训练市场
- AMD:5-8% 推理 + 少量训练(增长中)
- Google TPU:3-5%(GCP 内部 + 租)
- AWS Trainium:1-3%(Anthropic 等用)
- 其他全部加起来:< 5%

变化最快的方向:
- AMD 训练性能追上后份额会上去
- 云厂自研 ASIC(TPU/Trainium)份额持续涨
- Intel Gaudi 路线不明朗
- 创业公司大部分会被并购或退出

待补充:2025 年云厂 AI 芯片实际部署比例最新数据。

小结

  • Intel Gaudi 走”低价对标 H100”路线,但生态仍在追
  • Google TPU 已经迭代 7 代,是非 GPU 路线最成熟的
  • AWS Trainium 主要服务 Anthropic 等大客户
  • Cerebras 整片晶圆是另一种思路,适合超大模型
  • Groq / SambaNova 各自有数据流架构的延迟优势
  • PyTorch 后端兼容是所有非 NVIDIA 厂家的生态门槛

下一篇讲国产 AI 芯片——昇腾、寒武纪、摩尔线程、燧原、壁仞、海光等。