Intel Gaudi、Google TPU 与其他 AI 加速器

NVIDIA 之外的 AI 算力方案分两类：一类是”通用 GPU 替代”（Intel Gaudi、AMD MI），一类是”专用架构”（TPU、Trainium、Cerebras、Groq）。后者在特定场景能赢 NVIDIA，但通用性差。本文盘点。

一张全景

graph TB
  AI[AI 加速器]
  AI --> GPU[GPU 路线
通用并行]
  AI --> ASIC[ASIC 路线
专用矩阵]
  AI --> WAFER[Wafer-Scale
整片晶圆]
  AI --> DATAFLOW[Dataflow
数据流架构]

  GPU --> N[NVIDIA H100/B200]
  GPU --> A[AMD MI300]
  GPU --> I[Intel Gaudi/PVC]

  ASIC --> TPU[Google TPU]
  ASIC --> TRN[AWS Trainium]
  ASIC --> META[Meta MTIA]

  WAFER --> CB[Cerebras WSE]

  DATAFLOW --> GROQ[Groq LPU]
  DATAFLOW --> SN[SambaNova]

Intel Gaudi 系列

Gaudi 是 Intel 2019 年收购 Habana Labs（以色列）后的核心 AI 产品。和 Intel 自家 Xe GPU 路线（Ponte Vecchio）并行。

Gaudi 2（2022）


制程	TSMC 7nm
显存	96 GB HBM2e，2.45 TB/s
BF16 算力	~432 TFLOPS
互联	24× 100GbE 集成在芯片上
TDP	600W

Gaudi 2 的特点是把 RoCE 网卡直接集成到 AI 芯片里——不需要单独的 IB / 以太网卡，省一笔成本。

Gaudi 3（2024）


制程	TSMC 5nm
显存	128 GB HBM2e，3.7 TB/s
BF16 / FP8 算力	1.8 / 1.8 PFLOPS
互联	24× 200GbE
TDP	900W

Gaudi 3 主打”对位 H100、价格更低”——Intel 公开宣称 1.5× H100 推理性价比。

Gaudi 的市场定位

优势：     价格便宜（约 H100 的 60-70%）
          网卡集成省一道成本
          PyTorch 支持基本可用

劣势：     生态远不如 CUDA
          训练框架支持有限
          路线图和未来不明朗（Intel 整体重组）

待补充：Gaudi 系列 2025-2026 年实际出货情况。Intel 2024 年传出可能整合 Gaudi 与 Xe GPU 路线，最终方向待定。

Intel Xe GPU（Ponte Vecchio / Falcon Shores）

Intel 自家 GPU 路线分两条：

1 2	`Xe-LP / Xe-HPG：消费级（Arc 系列） Xe-HP / Xe-HPC：数据中心（Ponte Vecchio）`

Ponte Vecchio (PVC)（Data Center GPU Max 系列）2022 年发布：


制程	Intel 7 + TSMC N5 + N7（多 chiplet）
结构	47 颗 chiplet 拼接，1000+ 亿晶体管
显存	128 GB HBM2e
FP64 算力	52 TFLOPS
互联	Xe Link

PVC 装进了 Aurora 超算（阿贡国家实验室）——美国第二台 ExaFLOP 级超算。

但 PVC 在 AI 市场反响平淡——Intel 2024 年宣布取消 Falcon Shores 的 GPU 路线，转向 Gaudi 路线。Xe HPC 实际上已经”产品线收摊”。

待补充：Intel Falcon Shores / Jaguar Shores 后续路线图——2025 年 Intel 整体重组后变化较多。

Google TPU

TPU = Tensor Processing Unit，Google 自研，只在 Google Cloud 内部用 + 通过 GCP 出租，不对外卖芯片。

TPU 演进

graph LR
  T1[TPU v1
2015
仅推理 INT8] --> T2[TPU v2
2017
训练 BF16]
  T2 --> T3[TPU v3
2018
液冷]
  T3 --> T4[TPU v4
2021
OCS 光交换]
  T4 --> T5[TPU v5e/v5p
2023]
  T5 --> T6[TPU v6 / Trillium
2024]
  T6 --> T7[TPU v7
2025+]

TPU v4（2021）


制程	7nm
算力	BF16 275 TFLOPS / chip
显存	32 GB HBM
互联	3D Torus + 光交换 OCS
Pod	4096 chips / pod

TPU v4 引入了 OCS（Optical Circuit Switch，光交换机）——通过物理切换光纤路径来动态重配集群拓扑，避免传统电交换机的延迟和功耗。

TPU v5e / v5p（2023）

1 2	`v5e（efficiency）：推理 + 中等训练，性价比导向 v5p（performance）：超大模型训练，对标 H100`

v5p 单 Pod 8960 chip × 459 TFLOPS BF16 = ~4 EFLOPS——和 NVIDIA SuperPOD 量级相当。

TPU Trillium（v6，2024）

Trillium：
  4.7× v5e 算力（每芯片）
  HBM3，带宽翻倍
  ICI（Inter-Chip Interconnect）3.0
  目标：内部 Gemini 训练 + Cloud TPU 出租

待补充：Trillium 详细规格 + TPU v7 路线图。

TPU 的工程哲学

graph TB
  D1[只为 Google 自己优化
不需要兼顾客户]
  D2[Systolic Array 阵列
专为矩阵乘设计]
  D3[整集群协同设计
OCS + 3D Torus]
  D4[只支持 TF/JAX/XLA
不需要 PyTorch 全套]

  D1 --> R[10 年迭代]
  D2 --> R
  D3 --> R
  D4 --> R
  R[每代算力涨 2-5×]

TPU 是 Google 自己的”垂直整合”案例——硬件 + 编译器（XLA）+ 框架（JAX/TF）+ 数据中心（OCS）全栈协同。这是为什么 TPU 在某些 workload 上效率比 GPU 高。

TPU 用户能不能用

方式 1：Google Cloud TPU 实例（v5e/v5p/Trillium）
方式 2：Google 内部团队（Bard/Gemini 训练）
方式 3：Kaggle 免费 TPU 配额（非常有限）
不能买芯片本身

AWS Trainium / Inferentia

AWS 自研 AI 芯片，类似 Google TPU 路线——只在 AWS 内部用：

系列	用途	代次
Inferentia 1	推理	2019
Inferentia 2	推理	2023
Trainium 1	训练	2022
Trainium 2	训练	2024

Trainium 2

单芯片 BF16 算力：~1.3 PFLOPS
单芯片 FP8：     ~2.6 PFLOPS
单芯片 HBM：    96 GB
互联：           NeuronLink-v3
集群：           UltraCluster 100K+ chip

Trainium 2 的 UltraCluster 用于 AWS 内部和 Anthropic 等客户训练大模型。

待补充：Trainium 3 路线图——AWS re:Invent 2025 公布。

Meta MTIA

Meta（Facebook）也自研 AI 芯片：

1
2
3

MTIA v1（2023）：推理 + 内部推荐系统
MTIA v2（2024）：性能翻倍，扩展到训练
MTIA v3（2025）：详细规格待补

MTIA 用于 Meta 自家推荐系统——Llama 大模型训练仍然主要用 NVIDIA H100。

待补充：MTIA 内部部署规模，对外披露有限。

Cerebras WSE：整片晶圆做一颗芯片

Cerebras 走的路线非常独特——不切晶圆，整片当一颗芯片用：

	WSE-3（2024）
尺寸	46225 mm²（H100 的 57 倍）
晶体管	4 万亿
Core 数	90 万
SRAM	44 GB on-chip
算力	FP16 125 PFLOPS / 单片

WSE-3 一颗整片晶圆做成的芯片——没有传统的 chip-to-chip 通信瓶颈。所有 90 万 core 通过 on-die mesh 互联，延迟纳秒级。

graph TB
  subgraph WSE["1 颗 WSE-3 = 1 整片 12 寸晶圆"]
    direction TB
    C[90 万 core × 44 GB SRAM]
    C2[on-die mesh 互联，无外部 PCIe/NVLink]
  end

Cerebras 适用场景

优势：     超大模型推理（70B、175B）
          单"芯片"装得下整个模型权重
          编程模型简单（没有 NVLink/MPI）

劣势：     训练侧不如 GPU 集群成熟
          一台 CS-3 系统约 2-3 百万美元
          散热和供电极端

Cerebras 客户主要在科研机构、能源公司、政府客户。商用大厂不多。

待补充：CS-3 系统出货量和实际训练业绩。

Groq LPU：推理专用的”数据流”架构

Groq 的 LPU（Language Processing Unit） 是推理专用芯片，2024 年靠 Llama 3 推理 demo 出圈：


架构	Tensor Streaming Processor (TSP)
制程	14nm（v1）/ 4nm（v2）
片上 SRAM	230 MB
特点	完全确定性执行，编译时静态调度

Groq 的杀手锏

延迟极低：Llama 3 70B 推理 ~250-500 token/s（H100 ~40-80 token/s）
原因：    230 MB SRAM 一次装下激活
          无 KV-Cache 在 HBM 的来回搬运
          编译器静态调度，零动态决策

但 Groq 的限制：

权重不能太大（230 MB SRAM 装不下 70B 全权重）
要靠多片协作，每芯片只装一层 → 集群规模线性扩
没有训练能力
单纯推理 ASIC

Groq Cloud 现在是开发者推理大模型最便宜的服务之一。

待补充：Groq v2 芯片量产和成本结构。

SambaNova

SambaNova SN40L 也是数据流架构，但和 Groq 思路略不同——Reconfigurable Dataflow Architecture：

特点：     编译时把神经网络"展开"成 dataflow graph
          硬件配置成对应拓扑后执行
          支持训练 + 推理
          对标 GPU 集群

商业模式：  打包"DataScale"系统（一柜 8 卡）
          按月租用 + 软件订阅

SambaNova 客户主要是金融、政府、生命科学——走的是”AI 一体机”+ 服务路线，不像 NVIDIA 卖芯片。

待补充：SambaNova SN40L 实际部署规模。

一些小众但活跃的厂家

Tenstorrent（Jim Keller 的公司）
  Wormhole / Blackhole 系列，开源生态
  RISC-V + Tensix Core
  目标：开放架构对抗 NVIDIA

Graphcore（英国）
  IPU（Intelligence Processing Unit）
  曾估值 28 亿美元，2024 年被软银收购
  路线已大幅收缩

Mythic
  模拟计算 IMC（in-memory compute）
  超低功耗 edge 推理

d-Matrix
  in-memory compute + chiplet
  专注大模型推理

Rain AI
  类脑 / 模拟计算

Lightmatter / Lightelligence
  光计算

待补充：这些公司 2025-2026 年的商业进展——AI 芯片创业生死轮替较快。

NVIDIA 之外的几条路线总结

graph TB
  R1[完全替代 GPU
AMD MI / Intel Gaudi]
  R2[云厂自研 ASIC
TPU / Trainium / MTIA]
  R3[Wafer-Scale
Cerebras]
  R4[推理专用 ASIC
Groq / SambaNova]
  R5[创业公司
Tenstorrent / d-Matrix]

  R1 --> S1[卖通用芯片
对接 PyTorch]
  R2 --> S2[只自家用 / 出租云]
  R3 --> S3[卖整机
科研/政府客户]
  R4 --> S4[卖云推理服务]
  R5 --> S5[小众客户
赌长期]

各家适用场景速查

你是	推荐
互联网大厂训练大模型	NVIDIA H100/B200（默认）+ AMD MI300X 试点
推理为主、显存压力大	AMD MI300X / NVIDIA H200
训练成本敏感	Intel Gaudi 2/3、AWS Trainium
用 GCP 训练	Google TPU v5p / Trillium
推理延迟极致	Groq Cloud（按 API 用）
单模型超大	Cerebras CS-3（科研客户）
政府 / 金融垂直	SambaNova DataScale
edge 端推理	NVIDIA Jetson、Mythic、d-Matrix
国产化要求	见下一篇

一些查询命令

# Intel Gaudi
hl-smi                       # 类似 nvidia-smi
hl-smi -q                    # 详细查询

# AWS Neuron
neuron-ls                    # 列出 Trainium / Inferentia
neuron-top                   # 实时利用率

# Google TPU（在 GCP TPU VM 上）
gcloud compute tpus tpu-vm describe <NAME>
python -c "import jax; print(jax.devices())"  # 看到 TpuDevice

# Cerebras / Groq / SambaNova 一般通过云 API 直接用

软件栈对比

graph TB
  PT[PyTorch / TensorFlow / JAX]

  PT --> CUDA[NVIDIA: CUDA + cuDNN + NCCL]
  PT --> ROCm[AMD: ROCm + RCCL]
  PT --> SYNAPSE[Intel Gaudi: SynapseAI]
  PT --> XLA[Google TPU: XLA + JAX]
  PT --> NEURON[AWS: Neuron SDK]
  PT --> MTIA_SW[Meta: PyTorch backend]
  PT --> CB_SW[Cerebras: Cerebras SDK]
  PT --> GROQ_SW[Groq: Groq Compiler]

PyTorch 现在是事实上的”最大公约数”——所有非 NVIDIA 加速器都把”PyTorch 后端能跑”作为生态目标，但实际成熟度差异很大。

实际选型的现实

2026 年现实：
  - NVIDIA：90%+ 大模型训练市场
  - AMD：5-8% 推理 + 少量训练（增长中）
  - Google TPU：3-5%（GCP 内部 + 租）
  - AWS Trainium：1-3%（Anthropic 等用）
  - 其他全部加起来：< 5%

变化最快的方向：
  - AMD 训练性能追上后份额会上去
  - 云厂自研 ASIC（TPU/Trainium）份额持续涨
  - Intel Gaudi 路线不明朗
  - 创业公司大部分会被并购或退出

待补充：2025 年云厂 AI 芯片实际部署比例最新数据。

小结

Intel Gaudi 走”低价对标 H100”路线，但生态仍在追
Google TPU 已经迭代 7 代，是非 GPU 路线最成熟的
AWS Trainium 主要服务 Anthropic 等大客户
Cerebras 整片晶圆是另一种思路，适合超大模型
Groq / SambaNova 各自有数据流架构的延迟优势
PyTorch 后端兼容是所有非 NVIDIA 厂家的生态门槛

下一篇讲国产 AI 芯片——昇腾、寒武纪、摩尔线程、燧原、壁仞、海光等。

05-GPU与AI

#Gaudi #TPU #Trainium #Cerebras #Groq

国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等上一篇

AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU" 下一篇