国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等

2022 年起美国对中国 AI 芯片的出口管制持续收紧——A100/H100/H200/B200 都不能正常进口。这反而把国产 AI 芯片”逼”了出来。本文盘点国产 AI 芯片的现状。

一张全景

graph TB
  CN[国产 AI 芯片]
  CN --> HW[华为昇腾
Ascend 910B/910C/910D]
  CN --> CB[寒武纪
思元 290/370/590]
  CN --> MT[摩尔线程
MTT S3000/S4000]
  CN --> EF[燧原
邃思 i20/i30]
  CN --> BR[壁仞
BR100/BR104]
  CN --> HG[海光
DCU Z100/Z200]
  CN --> OT[其他
沐曦/天数智芯/燧原/瀚博]

华为昇腾（Ascend）

华为海思 2018 年发布 Ascend 系列——是国产 AI 芯片中最完整的一条线。

Ascend 910 / 910B / 910C

	910（2019）	910B（2023）	910C（2024+）
制程	7nm（台积电）	7nm+（中芯/台积代工）	待确认
算力 FP16	256 TFLOPS	320 TFLOPS	~640 TFLOPS（双 die）
显存	32 GB HBM2	64 GB HBM2e	128 GB HBM2e/3
互联	HCCS（私有）	HCCS	HCCS
TDP	310W	400W	600-800W

910B 是当前国产 AI 芯片中性能最接近 H100 的一颗——在大模型推理上对标 A100 + 60-80% H100。

910C 据称是 910B 双 die 版本，对标 H100/H200。

待补充：910C/910D 的实际量产时间和真实规格——华为 AI 芯片不公开太多技术细节。

Atlas 服务器和集群

1
2
3

Atlas 800：单机 8 卡 910B
Atlas 900 SuperPOD：8192 卡集群（华为公开数据）
Atlas 900 A3 SuperCluster：万卡级

华为云 ModelArts 的训练集群就建在 Atlas 上，号称”中国最大 AI 算力集群”之一。

CANN 软件栈

graph TB
  CANN[CANN
类 CUDA Runtime]
  CANN --> ATC[ATC
模型转换]
  CANN --> AOE[AOE
auto-tune]
  CANN --> HCCL[HCCL
类 NCCL]
  CANN --> OPLIB[OpLib
算子库]
  
  PT[PyTorch + torch_npu] --> CANN
  TF[TensorFlow] --> CANN
  MS[MindSpore
华为自家框架] --> CANN

CANN（Compute Architecture for Neural Networks） 是华为对标 CUDA 的软件栈。重点：

MindSpore 是华为自家框架——某些场景比 PyTorch 跑得更好
PyTorch 通过 torch_npu 接昇腾——主流模型可以”无痛”迁移
算子库覆盖度比 CUDA 仍少不少

昇腾的真实落地

官方定位：政企/能源/电力/金融大客户
实际场景：电信运营商内部 AI、政务大模型
大模型训练：盘古、文心、千问的部分版本在 910B 上训
互联网厂：还在试点（vs H100 性价比仍未过临界点）

待补充：昇腾 2025-2026 年大客户名单和实际部署规模——华为不主动公开。

寒武纪（Cambricon）

寒武纪是国产 AI 芯片第一家上市公司（2020）。前身是中科院计算所。

思元 290 / 370 / 590

	思元 290（2021）	思元 370（2022）	思元 590（2024）
制程	7nm	7nm	待确认
算力 INT8	512 TOPS	256 TOPS	~1000+ TOPS
显存	32 GB HBM2	24 GB LPDDR5	64 GB HBM2
形态	卡	卡 + 板	卡

590 据传对标 A100，但寒武纪近期信息发布较少。

待补充：思元 590 量产情况——传闻 2024-2025 年量产但未公开发布会。

Cambricon Neuware

寒武纪的软件栈叫 Neuware：

- BANG C++（编程语言）
- CNRT（运行时）
- CNML（算子库）
- CNCL（集合通信）
- PyTorch / TensorFlow 后端

寒武纪生态较为封闭，主要客户是阿里云内部——早年支持阿里云 AI 推理服务。字节跳动也有少量部署。

待补充：寒武纪当前营收和大客户结构——上市公司但披露有限。

摩尔线程（Moore Threads）

摩尔线程 2020 年成立——国产 GPU 中”最像 NVIDIA” 的一家。创始团队多来自 NVIDIA 中国。

产品线

MTT S60：消费 GPU（对标 RTX 3050）
MTT S70 / S80 / S90：消费/专业卡
MTT S3000 / S4000：数据中心 AI 卡
MTT S5000 KUAE：训练集群专用

MTT S4000（2024）


算力 FP16	~100 TFLOPS
显存	48 GB GDDR6
互联	MTLink
形态	双槽 PCIe

S4000 仍用 GDDR6 而非 HBM——带宽受限，对训练大模型不太够，主要用于推理 + 中小模型训练。

MUSA 软件栈

摩尔线程的”CUDA 替代”叫 MUSA——名字、API、文件后缀都刻意接近 CUDA：

.cu  → .mu
nvcc → mcc
cuBLAS → muBLAS
NCCL → MCCL

MUSA 兼容 CUDA 源码层迁移——很多简单 CUDA 代码可以直接 sed 替换关键字编译。

但算子库的性能优化和稳定性仍在追——这是国产 GPU 通病。

待补充：MTT S5000 集群在国内 AI 厂的实际部署规模。

燧原（Enflame）

燧原 2018 年成立，腾讯系投资。专攻数据中心 AI 训练 + 推理。

邃思 / 云燧

	邃思 2.5 / 云燧 i20（2022）	邃思 3.0 / 云燧 i30（2024）
制程	12nm	7nm
算力	FP32 32 TFLOPS	BF16 ~1 PFLOPS
显存	16 GB HBM2	64 GB HBM2e
形态	OAM	OAM

燧原主要走 OAM 形态（OCP Accelerator Module）——和 NVIDIA SXM 类似，但开放标准。

TopsRider 软件栈

TopsRider：
  - PyTorch 后端
  - TensorFlow 后端
  - vLLM 适配
  - 分布式训练框架

燧原客户主要在腾讯云、字节、电信运营商——主打”大模型推理”。

待补充：燧原 i30 量产铺货情况。

壁仞（Biren）

壁仞 2019 年成立，团队多来自 NVIDIA / AMD / 高通——最像 NVIDIA H100 的国产架构。

BR100 / BR104（2022）

	BR100	BR104
制程	7nm	7nm
结构	双 die chiplet	单 die
算力 BF16	1 PFLOPS	0.5 PFLOPS
显存	64 GB HBM2e	32 GB HBM2e
TDP	550W	300W

BR100 是国产 AI 芯片第一颗 chiplet GPU——技术上很激进。

制裁影响

2022 年 10 月美国出口管制收紧后，壁仞被列入实体清单——台积电不能再为壁仞代工。BR100 的”未来”打了大问号。

2024-2025 年壁仞重新设计降配版本（用国内代工厂），算力较初代版本降低，但能保住产品线。

待补充：壁仞当前实际可量产产品线——制裁后路线变化大，公开信息有限。

海光（Hygon）DCU

海光信息（中科曙光系）走的是特殊路线——授权 AMD GCN/CDNA 架构做 GPU。

DCU Z100 / Z200

	Z100	Z200（2024-2025）
架构	AMD GCN（授权）	AMD CDNA 衍生
制程	14nm	7nm
显存	32 GB HBM2	64 GB HBM2e
算力 FP32	~10 TFLOPS	~30 TFLOPS

海光 DCU 兼容 ROCm——AMD ROCm 的代码”很多能直接跑”，这是它的独特优势。

海光的限制

1. 架构是 AMD 老 GCN（授权后无法独立演进）
   → 算力代次落后 NVIDIA 3-4 代
2. AMD 已停止授权后续更新
   → Z200 之后路线不明朗
3. 主要客户是国内超算 + 政府

待补充：海光 Z200 后续是否能继续从 AMD 拿到新架构授权——美国制裁影响。

其他厂家速览

沐曦（Metax）

MXC500（2023）：训练 + 推理
MXN100：推理专用
特点：     架构对标 NVIDIA，主打"国产 H100 替代"
状态：     2024 年量产铺货中

天数智芯（Iluvatar）

天垓 100：训练
智铠 100：推理
特点：     已在国内多家云和运营商部署
路线：     7nm，对标 A100

瀚博半导体

1 2	`SV100/SV101：推理为主特点：视频 / 图像处理强`

算能（Sophgo）

1
2
3

原 比特大陆 AI 业务分拆
SC7：     推理 + 嵌入式
路线：     RISC-V + AI

待补充：上述各家 2026 年最新产品和实际客户规模——中国 AI 芯片市场每半年都有变化。

软件栈对比

graph TB
  PT[PyTorch + 模型]

  PT --> CANN[华为 CANN
+ MindSpore]
  PT --> NEU[寒武纪 Neuware
+ BANG C]
  PT --> MUSA[摩尔线程 MUSA]
  PT --> TR[燧原 TopsRider]
  PT --> SUP[壁仞 SUPA]
  PT --> ROCM[海光 ROCm 衍生]

国产 AI 芯片的软件栈普遍特征：

PyTorch 主流模型可以跑（基本要求，否则没人用）
算子覆盖率比 CUDA 低 10-30%
训练性能仍逊于 H100 同等比较
debug / profile 工具不成熟
分布式训练（万卡）只有华为有完整方案

制裁与代工

台积电（TSMC）：所有先进国产 AI 芯片代工的主要选择
                壁仞、海光、寒武纪、燧原均被加入实体清单
                台积电对实体清单客户停止代工
                
中芯国际（SMIC）：国内代工，最先进 7nm（"N+2"）
                华为昇腾 910B 部分用此线
                良率和容量仍受限
                
华虹 / 长电封测：HBM 封装挑战
HBM 颗粒：国内长鑫 LPDDR/DDR 已量产，HBM 仍在追

国产 AI 芯片的”算力天花板”很大程度由代工和 HBM 决定——而非设计能力。这是后续几年的核心矛盾。

国产化的”完整 AI 算力栈”梳理

GPU 设计：       华为/壁仞/沐曦/摩尔线程/燧原  …    设计已成熟
代工：           中芯 7nm / N+2，台积电（受限）  …    重大瓶颈
HBM：            CXMT 在追，HBM2 量产，HBM3+ 仍弱   …    第二大瓶颈
NVLink 等价物：   HCCS / MTLink / xLink            …    技术 OK，规模有限
集群网络：        鹊信 / 飞腾 RDMA                  …    跟得上
软件栈：         CANN / MUSA / Neuware / ROCm      …    PyTorch 主流可跑
框架：           PyTorch / MindSpore / PaddlePaddle …    成熟
模型：           Llama / Qwen / DeepSeek 等        …    成熟

核心瓶颈仍在芯片代工和 HBM——其他环节都在快速追赶。

待补充：HBM 国产化最新进度——CXMT、长鑫存储 HBM3 量产时间。

实际选型建议

场景	推荐
政企 / 国央企 / 国产化必选	华为昇腾（生态最完整）
互联网厂大模型训练	仍以 NVIDIA H100/H200 为主
国内推理 + 性价比	摩尔线程 / 燧原 / 沐曦
兼容 ROCm 生态	海光 DCU
高校 / 科研机构	寒武纪、壁仞
国产化集群（千卡+）	华为 Atlas 900 是唯一成熟方案

一些查询命令

# 华为昇腾
npu-smi info                # 类似 nvidia-smi
npu-smi info -t topo        # 拓扑

# 寒武纪
cnmon                       # MLU 监控
cnsmi -L                    # 列出设备

# 摩尔线程
mthreads-gmi                # 类似 nvidia-smi
mtt-smi                     # 也可以

# 海光 DCU
rocm-smi                    # 兼容 AMD
hy-smi                      # 海光自家工具

国产 AI 芯片的现实判断

2026 年现状：
  - 华为昇腾在政企已是默认选择
  - 互联网大厂仍以 NVIDIA 为主，国产为辅
  - 大模型训练 NVIDIA 占 80%+
  - 推理国产占比正在涨
  - 万卡集群只有华为有
  - 算力天花板由代工 + HBM 决定

未来 2-3 年看点：
  - 中芯 N+2 良率提升 → 910C/910D 量产
  - CXMT HBM3 量产 → 显存瓶颈缓解
  - PyTorch 国产后端继续完善
  - 算子库性能持续追赶 cuDNN
  - 大客户（运营商/政企/银行）持续切换

一些”国产 AI 落地”的特殊考虑

1. 信创目录：    部分政企采购必须国产 AI 芯片
2. 数据合规：    敏感行业不能用境外云 / 境外 GPU
3. 供应链安全：  避免被"卡脖子"，提前国产化布局
4. 政策补贴：    部分省市对国产 AI 算力有补贴
5. 模型适配：    Qwen / DeepSeek / 文心等已主动适配国产芯片

待补充：你公司或项目内的国产 AI 芯片选型与适配进展我来写。

小结

华为昇腾是国产 AI 芯片中生态最完整的，目标对标 H100
寒武纪、摩尔线程、燧原、壁仞、海光各走一条不同的技术路线
核心瓶颈是代工（中芯 7nm）和 HBM——不是芯片设计能力
PyTorch 后端基本可用，算子库和训练性能仍在追
万卡集群只有华为 Atlas 900 一家
短期 NVIDIA 主导大模型训练，国产逐步起量推理

下一篇讲 AI 训练 vs 推理的硬件视角——FP8/FP4、KV-Cache、显存压力等。

05-GPU与AI

#昇腾 #寒武纪 #摩尔线程 #燧原 #壁仞 #海光

AI 训练 vs 推理 —— 硬件视角的根本差异上一篇

Intel Gaudi、Google TPU 与其他 AI 加速器下一篇