国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等
2022 年起美国对中国 AI 芯片的出口管制持续收紧——A100/H100/H200/B200 都不能正常进口。这反而把国产 AI 芯片”逼”了出来。本文盘点国产 AI 芯片的现状。
一张全景
graph TB CN[国产 AI 芯片] CN --> HW[华为昇腾
Ascend 910B/910C/910D] CN --> CB[寒武纪
思元 290/370/590] CN --> MT[摩尔线程
MTT S3000/S4000] CN --> EF[燧原
邃思 i20/i30] CN --> BR[壁仞
BR100/BR104] CN --> HG[海光
DCU Z100/Z200] CN --> OT[其他
沐曦/天数智芯/燧原/瀚博]
华为昇腾(Ascend)
华为海思 2018 年发布 Ascend 系列——是国产 AI 芯片中最完整的一条线。
Ascend 910 / 910B / 910C
| 910(2019) | 910B(2023) | 910C(2024+) | |
|---|---|---|---|
| 制程 | 7nm(台积电) | 7nm+(中芯/台积代工) | 待确认 |
| 算力 FP16 | 256 TFLOPS | 320 TFLOPS | ~640 TFLOPS(双 die) |
| 显存 | 32 GB HBM2 | 64 GB HBM2e | 128 GB HBM2e/3 |
| 互联 | HCCS(私有) | HCCS | HCCS |
| TDP | 310W | 400W | 600-800W |
910B 是当前国产 AI 芯片中性能最接近 H100 的一颗——在大模型推理上对标 A100 + 60-80% H100。
910C 据称是 910B 双 die 版本,对标 H100/H200。
待补充:910C/910D 的实际量产时间和真实规格——华为 AI 芯片不公开太多技术细节。
Atlas 服务器和集群
1 | |
华为云 ModelArts 的训练集群就建在 Atlas 上,号称”中国最大 AI 算力集群”之一。
CANN 软件栈
graph TB CANN[CANN
类 CUDA Runtime] CANN --> ATC[ATC
模型转换] CANN --> AOE[AOE
auto-tune] CANN --> HCCL[HCCL
类 NCCL] CANN --> OPLIB[OpLib
算子库] PT[PyTorch + torch_npu] --> CANN TF[TensorFlow] --> CANN MS[MindSpore
华为自家框架] --> CANN
CANN(Compute Architecture for Neural Networks) 是华为对标 CUDA 的软件栈。重点:
- MindSpore 是华为自家框架——某些场景比 PyTorch 跑得更好
- PyTorch 通过 torch_npu 接昇腾——主流模型可以”无痛”迁移
- 算子库覆盖度比 CUDA 仍少不少
昇腾的真实落地
1 | |
待补充:昇腾 2025-2026 年大客户名单和实际部署规模——华为不主动公开。
寒武纪(Cambricon)
寒武纪是国产 AI 芯片第一家上市公司(2020)。前身是中科院计算所。
思元 290 / 370 / 590
| 思元 290(2021) | 思元 370(2022) | 思元 590(2024) | |
|---|---|---|---|
| 制程 | 7nm | 7nm | 待确认 |
| 算力 INT8 | 512 TOPS | 256 TOPS | ~1000+ TOPS |
| 显存 | 32 GB HBM2 | 24 GB LPDDR5 | 64 GB HBM2 |
| 形态 | 卡 | 卡 + 板 | 卡 |
590 据传对标 A100,但寒武纪近期信息发布较少。
待补充:思元 590 量产情况——传闻 2024-2025 年量产但未公开发布会。
Cambricon Neuware
寒武纪的软件栈叫 Neuware:
1 | |
寒武纪生态较为封闭,主要客户是阿里云内部——早年支持阿里云 AI 推理服务。字节跳动也有少量部署。
待补充:寒武纪当前营收和大客户结构——上市公司但披露有限。
摩尔线程(Moore Threads)
摩尔线程 2020 年成立——国产 GPU 中”最像 NVIDIA” 的一家。创始团队多来自 NVIDIA 中国。
产品线
1 | |
MTT S4000(2024)
| 算力 FP16 | ~100 TFLOPS |
| 显存 | 48 GB GDDR6 |
| 互联 | MTLink |
| 形态 | 双槽 PCIe |
S4000 仍用 GDDR6 而非 HBM——带宽受限,对训练大模型不太够,主要用于推理 + 中小模型训练。
MUSA 软件栈
摩尔线程的”CUDA 替代”叫 MUSA——名字、API、文件后缀都刻意接近 CUDA:
1 | |
MUSA 兼容 CUDA 源码层迁移——很多简单 CUDA 代码可以直接 sed 替换关键字编译。
但算子库的性能优化和稳定性仍在追——这是国产 GPU 通病。
待补充:MTT S5000 集群在国内 AI 厂的实际部署规模。
燧原(Enflame)
燧原 2018 年成立,腾讯系投资。专攻数据中心 AI 训练 + 推理。
邃思 / 云燧
| 邃思 2.5 / 云燧 i20(2022) | 邃思 3.0 / 云燧 i30(2024) | |
|---|---|---|
| 制程 | 12nm | 7nm |
| 算力 | FP32 32 TFLOPS | BF16 ~1 PFLOPS |
| 显存 | 16 GB HBM2 | 64 GB HBM2e |
| 形态 | OAM | OAM |
燧原主要走 OAM 形态(OCP Accelerator Module)——和 NVIDIA SXM 类似,但开放标准。
TopsRider 软件栈
1 | |
燧原客户主要在腾讯云、字节、电信运营商——主打”大模型推理”。
待补充:燧原 i30 量产铺货情况。
壁仞(Biren)
壁仞 2019 年成立,团队多来自 NVIDIA / AMD / 高通——最像 NVIDIA H100 的国产架构。
BR100 / BR104(2022)
| BR100 | BR104 | |
|---|---|---|
| 制程 | 7nm | 7nm |
| 结构 | 双 die chiplet | 单 die |
| 算力 BF16 | 1 PFLOPS | 0.5 PFLOPS |
| 显存 | 64 GB HBM2e | 32 GB HBM2e |
| TDP | 550W | 300W |
BR100 是国产 AI 芯片第一颗 chiplet GPU——技术上很激进。
制裁影响
2022 年 10 月美国出口管制收紧后,壁仞被列入实体清单——台积电不能再为壁仞代工。BR100 的”未来”打了大问号。
2024-2025 年壁仞重新设计降配版本(用国内代工厂),算力较初代版本降低,但能保住产品线。
待补充:壁仞当前实际可量产产品线——制裁后路线变化大,公开信息有限。
海光(Hygon)DCU
海光信息(中科曙光系)走的是特殊路线——授权 AMD GCN/CDNA 架构做 GPU。
DCU Z100 / Z200
| Z100 | Z200(2024-2025) | |
|---|---|---|
| 架构 | AMD GCN(授权) | AMD CDNA 衍生 |
| 制程 | 14nm | 7nm |
| 显存 | 32 GB HBM2 | 64 GB HBM2e |
| 算力 FP32 | ~10 TFLOPS | ~30 TFLOPS |
海光 DCU 兼容 ROCm——AMD ROCm 的代码”很多能直接跑”,这是它的独特优势。
海光的限制
1 | |
待补充:海光 Z200 后续是否能继续从 AMD 拿到新架构授权——美国制裁影响。
其他厂家速览
沐曦(Metax)
1 | |
天数智芯(Iluvatar)
1 | |
瀚博半导体
1 | |
算能(Sophgo)
1 | |
待补充:上述各家 2026 年最新产品和实际客户规模——中国 AI 芯片市场每半年都有变化。
软件栈对比
graph TB PT[PyTorch + 模型] PT --> CANN[华为 CANN
+ MindSpore] PT --> NEU[寒武纪 Neuware
+ BANG C] PT --> MUSA[摩尔线程 MUSA] PT --> TR[燧原 TopsRider] PT --> SUP[壁仞 SUPA] PT --> ROCM[海光 ROCm 衍生]
国产 AI 芯片的软件栈普遍特征:
- PyTorch 主流模型可以跑(基本要求,否则没人用)
- 算子覆盖率比 CUDA 低 10-30%
- 训练性能仍逊于 H100 同等比较
- debug / profile 工具不成熟
- 分布式训练(万卡)只有华为有完整方案
制裁与代工
1 | |
国产 AI 芯片的”算力天花板”很大程度由代工和 HBM 决定——而非设计能力。这是后续几年的核心矛盾。
国产化的”完整 AI 算力栈”梳理
1 | |
核心瓶颈仍在芯片代工和 HBM——其他环节都在快速追赶。
待补充:HBM 国产化最新进度——CXMT、长鑫存储 HBM3 量产时间。
实际选型建议
| 场景 | 推荐 |
|---|---|
| 政企 / 国央企 / 国产化必选 | 华为昇腾(生态最完整) |
| 互联网厂大模型训练 | 仍以 NVIDIA H100/H200 为主 |
| 国内推理 + 性价比 | 摩尔线程 / 燧原 / 沐曦 |
| 兼容 ROCm 生态 | 海光 DCU |
| 高校 / 科研机构 | 寒武纪、壁仞 |
| 国产化集群(千卡+) | 华为 Atlas 900 是唯一成熟方案 |
一些查询命令
1 | |
国产 AI 芯片的现实判断
1 | |
一些”国产 AI 落地”的特殊考虑
1 | |
待补充:你公司或项目内的国产 AI 芯片选型与适配进展我来写。
小结
- 华为昇腾是国产 AI 芯片中生态最完整的,目标对标 H100
- 寒武纪、摩尔线程、燧原、壁仞、海光各走一条不同的技术路线
- 核心瓶颈是代工(中芯 7nm)和 HBM——不是芯片设计能力
- PyTorch 后端基本可用,算子库和训练性能仍在追
- 万卡集群只有华为 Atlas 900 一家
- 短期 NVIDIA 主导大模型训练,国产逐步起量推理
下一篇讲 AI 训练 vs 推理的硬件视角——FP8/FP4、KV-Cache、显存压力等。