国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等

2022 年起美国对中国 AI 芯片的出口管制持续收紧——A100/H100/H200/B200 都不能正常进口。这反而把国产 AI 芯片”逼”了出来。本文盘点国产 AI 芯片的现状。

一张全景

graph TB
  CN[国产 AI 芯片]
  CN --> HW[华为昇腾
Ascend 910B/910C/910D] CN --> CB[寒武纪
思元 290/370/590] CN --> MT[摩尔线程
MTT S3000/S4000] CN --> EF[燧原
邃思 i20/i30] CN --> BR[壁仞
BR100/BR104] CN --> HG[海光
DCU Z100/Z200] CN --> OT[其他
沐曦/天数智芯/燧原/瀚博]

华为昇腾(Ascend)

华为海思 2018 年发布 Ascend 系列——是国产 AI 芯片中最完整的一条线。

Ascend 910 / 910B / 910C

910(2019) 910B(2023) 910C(2024+)
制程 7nm(台积电) 7nm+(中芯/台积代工) 待确认
算力 FP16 256 TFLOPS 320 TFLOPS ~640 TFLOPS(双 die)
显存 32 GB HBM2 64 GB HBM2e 128 GB HBM2e/3
互联 HCCS(私有) HCCS HCCS
TDP 310W 400W 600-800W

910B 是当前国产 AI 芯片中性能最接近 H100 的一颗——在大模型推理上对标 A100 + 60-80% H100。

910C 据称是 910B 双 die 版本,对标 H100/H200。

待补充:910C/910D 的实际量产时间和真实规格——华为 AI 芯片不公开太多技术细节。

Atlas 服务器和集群

1
2
3
Atlas 800:单机 8 卡 910B
Atlas 900 SuperPOD:8192 卡集群(华为公开数据)
Atlas 900 A3 SuperCluster:万卡级

华为云 ModelArts 的训练集群就建在 Atlas 上,号称”中国最大 AI 算力集群”之一。

CANN 软件栈

graph TB
  CANN[CANN
类 CUDA Runtime] CANN --> ATC[ATC
模型转换] CANN --> AOE[AOE
auto-tune] CANN --> HCCL[HCCL
类 NCCL] CANN --> OPLIB[OpLib
算子库] PT[PyTorch + torch_npu] --> CANN TF[TensorFlow] --> CANN MS[MindSpore
华为自家框架] --> CANN

CANN(Compute Architecture for Neural Networks) 是华为对标 CUDA 的软件栈。重点:

  • MindSpore 是华为自家框架——某些场景比 PyTorch 跑得更好
  • PyTorch 通过 torch_npu 接昇腾——主流模型可以”无痛”迁移
  • 算子库覆盖度比 CUDA 仍少不少

昇腾的真实落地

1
2
3
4
官方定位:政企/能源/电力/金融大客户
实际场景:电信运营商内部 AI、政务大模型
大模型训练:盘古、文心、千问的部分版本在 910B 上训
互联网厂:还在试点(vs H100 性价比仍未过临界点)

待补充:昇腾 2025-2026 年大客户名单和实际部署规模——华为不主动公开。

寒武纪(Cambricon)

寒武纪是国产 AI 芯片第一家上市公司(2020)。前身是中科院计算所。

思元 290 / 370 / 590

思元 290(2021) 思元 370(2022) 思元 590(2024)
制程 7nm 7nm 待确认
算力 INT8 512 TOPS 256 TOPS ~1000+ TOPS
显存 32 GB HBM2 24 GB LPDDR5 64 GB HBM2
形态 卡 + 板

590 据传对标 A100,但寒武纪近期信息发布较少。

待补充:思元 590 量产情况——传闻 2024-2025 年量产但未公开发布会。

Cambricon Neuware

寒武纪的软件栈叫 Neuware

1
2
3
4
5
- BANG C++(编程语言)
- CNRT(运行时)
- CNML(算子库)
- CNCL(集合通信)
- PyTorch / TensorFlow 后端

寒武纪生态较为封闭,主要客户是阿里云内部——早年支持阿里云 AI 推理服务。字节跳动也有少量部署

待补充:寒武纪当前营收和大客户结构——上市公司但披露有限。

摩尔线程(Moore Threads)

摩尔线程 2020 年成立——国产 GPU 中”最像 NVIDIA” 的一家。创始团队多来自 NVIDIA 中国。

产品线

1
2
3
4
MTT S60:消费 GPU(对标 RTX 3050)
MTT S70 / S80 / S90:消费/专业卡
MTT S3000 / S4000:数据中心 AI 卡
MTT S5000 KUAE:训练集群专用

MTT S4000(2024)

算力 FP16 ~100 TFLOPS
显存 48 GB GDDR6
互联 MTLink
形态 双槽 PCIe

S4000 仍用 GDDR6 而非 HBM——带宽受限,对训练大模型不太够,主要用于推理 + 中小模型训练

MUSA 软件栈

摩尔线程的”CUDA 替代”叫 MUSA——名字、API、文件后缀都刻意接近 CUDA:

1
2
3
4
.cu  → .mu
nvcc → mcc
cuBLAS → muBLAS
NCCL → MCCL

MUSA 兼容 CUDA 源码层迁移——很多简单 CUDA 代码可以直接 sed 替换关键字编译。

算子库的性能优化和稳定性仍在追——这是国产 GPU 通病。

待补充:MTT S5000 集群在国内 AI 厂的实际部署规模。

燧原(Enflame)

燧原 2018 年成立,腾讯系投资。专攻数据中心 AI 训练 + 推理。

邃思 / 云燧

邃思 2.5 / 云燧 i20(2022) 邃思 3.0 / 云燧 i30(2024)
制程 12nm 7nm
算力 FP32 32 TFLOPS BF16 ~1 PFLOPS
显存 16 GB HBM2 64 GB HBM2e
形态 OAM OAM

燧原主要走 OAM 形态(OCP Accelerator Module)——和 NVIDIA SXM 类似,但开放标准。

TopsRider 软件栈

1
2
3
4
5
TopsRider:
- PyTorch 后端
- TensorFlow 后端
- vLLM 适配
- 分布式训练框架

燧原客户主要在腾讯云、字节、电信运营商——主打”大模型推理”。

待补充:燧原 i30 量产铺货情况。

壁仞(Biren)

壁仞 2019 年成立,团队多来自 NVIDIA / AMD / 高通——最像 NVIDIA H100 的国产架构

BR100 / BR104(2022)

BR100 BR104
制程 7nm 7nm
结构 双 die chiplet 单 die
算力 BF16 1 PFLOPS 0.5 PFLOPS
显存 64 GB HBM2e 32 GB HBM2e
TDP 550W 300W

BR100 是国产 AI 芯片第一颗 chiplet GPU——技术上很激进。

制裁影响

2022 年 10 月美国出口管制收紧后,壁仞被列入实体清单——台积电不能再为壁仞代工。BR100 的”未来”打了大问号。

2024-2025 年壁仞重新设计降配版本(用国内代工厂),算力较初代版本降低,但能保住产品线。

待补充:壁仞当前实际可量产产品线——制裁后路线变化大,公开信息有限。

海光(Hygon)DCU

海光信息(中科曙光系)走的是特殊路线——授权 AMD GCN/CDNA 架构做 GPU。

DCU Z100 / Z200

Z100 Z200(2024-2025)
架构 AMD GCN(授权) AMD CDNA 衍生
制程 14nm 7nm
显存 32 GB HBM2 64 GB HBM2e
算力 FP32 ~10 TFLOPS ~30 TFLOPS

海光 DCU 兼容 ROCm——AMD ROCm 的代码”很多能直接跑”,这是它的独特优势。

海光的限制

1
2
3
4
5
1. 架构是 AMD 老 GCN(授权后无法独立演进)
→ 算力代次落后 NVIDIA 3-4 代
2. AMD 已停止授权后续更新
→ Z200 之后路线不明朗
3. 主要客户是国内超算 + 政府

待补充:海光 Z200 后续是否能继续从 AMD 拿到新架构授权——美国制裁影响。

其他厂家速览

沐曦(Metax)

1
2
3
4
MXC500(2023):训练 + 推理
MXN100:推理专用
特点: 架构对标 NVIDIA,主打"国产 H100 替代"
状态: 2024 年量产铺货中

天数智芯(Iluvatar)

1
2
3
4
天垓 100:训练
智铠 100:推理
特点: 已在国内多家云和运营商部署
路线: 7nm,对标 A100

瀚博半导体

1
2
SV100/SV101:推理为主
特点: 视频 / 图像处理强

算能(Sophgo)

1
2
3
原 比特大陆 AI 业务分拆
SC7: 推理 + 嵌入式
路线: RISC-V + AI

待补充:上述各家 2026 年最新产品和实际客户规模——中国 AI 芯片市场每半年都有变化。

软件栈对比

graph TB
  PT[PyTorch + 模型]

  PT --> CANN[华为 CANN
+ MindSpore] PT --> NEU[寒武纪 Neuware
+ BANG C] PT --> MUSA[摩尔线程 MUSA] PT --> TR[燧原 TopsRider] PT --> SUP[壁仞 SUPA] PT --> ROCM[海光 ROCm 衍生]

国产 AI 芯片的软件栈普遍特征:

  • PyTorch 主流模型可以跑(基本要求,否则没人用)
  • 算子覆盖率比 CUDA 低 10-30%
  • 训练性能仍逊于 H100 同等比较
  • debug / profile 工具不成熟
  • 分布式训练(万卡)只有华为有完整方案

制裁与代工

1
2
3
4
5
6
7
8
9
10
台积电(TSMC):所有先进国产 AI 芯片代工的主要选择
壁仞、海光、寒武纪、燧原均被加入实体清单
台积电对实体清单客户停止代工

中芯国际(SMIC):国内代工,最先进 7nm("N+2")
华为昇腾 910B 部分用此线
良率和容量仍受限

华虹 / 长电封测:HBM 封装挑战
HBM 颗粒:国内长鑫 LPDDR/DDR 已量产,HBM 仍在追

国产 AI 芯片的”算力天花板”很大程度由代工和 HBM 决定——而非设计能力。这是后续几年的核心矛盾。

国产化的”完整 AI 算力栈”梳理

1
2
3
4
5
6
7
8
GPU 设计:       华为/壁仞/沐曦/摩尔线程/燧原  …    设计已成熟
代工: 中芯 7nm / N+2,台积电(受限) … 重大瓶颈
HBM: CXMT 在追,HBM2 量产,HBM3+ 仍弱 … 第二大瓶颈
NVLink 等价物: HCCS / MTLink / xLink … 技术 OK,规模有限
集群网络: 鹊信 / 飞腾 RDMA … 跟得上
软件栈: CANN / MUSA / Neuware / ROCm … PyTorch 主流可跑
框架: PyTorch / MindSpore / PaddlePaddle … 成熟
模型: Llama / Qwen / DeepSeek 等 … 成熟

核心瓶颈仍在芯片代工和 HBM——其他环节都在快速追赶。

待补充:HBM 国产化最新进度——CXMT、长鑫存储 HBM3 量产时间。

实际选型建议

场景 推荐
政企 / 国央企 / 国产化必选 华为昇腾(生态最完整)
互联网厂大模型训练 仍以 NVIDIA H100/H200 为主
国内推理 + 性价比 摩尔线程 / 燧原 / 沐曦
兼容 ROCm 生态 海光 DCU
高校 / 科研机构 寒武纪、壁仞
国产化集群(千卡+) 华为 Atlas 900 是唯一成熟方案

一些查询命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 华为昇腾
npu-smi info # 类似 nvidia-smi
npu-smi info -t topo # 拓扑

# 寒武纪
cnmon # MLU 监控
cnsmi -L # 列出设备

# 摩尔线程
mthreads-gmi # 类似 nvidia-smi
mtt-smi # 也可以

# 海光 DCU
rocm-smi # 兼容 AMD
hy-smi # 海光自家工具

国产 AI 芯片的现实判断

1
2
3
4
5
6
7
8
9
10
11
12
13
14
2026 年现状:
- 华为昇腾在政企已是默认选择
- 互联网大厂仍以 NVIDIA 为主,国产为辅
- 大模型训练 NVIDIA 占 80%+
- 推理国产占比正在涨
- 万卡集群只有华为有
- 算力天花板由代工 + HBM 决定

未来 2-3 年看点:
- 中芯 N+2 良率提升 → 910C/910D 量产
- CXMT HBM3 量产 → 显存瓶颈缓解
- PyTorch 国产后端继续完善
- 算子库性能持续追赶 cuDNN
- 大客户(运营商/政企/银行)持续切换

一些”国产 AI 落地”的特殊考虑

1
2
3
4
5
1. 信创目录:    部分政企采购必须国产 AI 芯片
2. 数据合规: 敏感行业不能用境外云 / 境外 GPU
3. 供应链安全: 避免被"卡脖子",提前国产化布局
4. 政策补贴: 部分省市对国产 AI 算力有补贴
5. 模型适配: Qwen / DeepSeek / 文心等已主动适配国产芯片

待补充:你公司或项目内的国产 AI 芯片选型与适配进展我来写。

小结

  • 华为昇腾是国产 AI 芯片中生态最完整的,目标对标 H100
  • 寒武纪、摩尔线程、燧原、壁仞、海光各走一条不同的技术路线
  • 核心瓶颈是代工(中芯 7nm)和 HBM——不是芯片设计能力
  • PyTorch 后端基本可用,算子库和训练性能仍在追
  • 万卡集群只有华为 Atlas 900 一家
  • 短期 NVIDIA 主导大模型训练,国产逐步起量推理

下一篇讲 AI 训练 vs 推理的硬件视角——FP8/FP4、KV-Cache、显存压力等。