华为开源核心算力技术：算力格局的“地震级”重构

2025年8月5日，华为在昇腾计算产业峰会上宣布，要把核心算力技术CANN全开源了。

这事儿一出来，好多人都觉得，英伟达那30年的AI算力霸主地位，怕是要动一动了。

这可不只是华为自己的事，更像是咱们中国科技企业想打破技术壁垒，让全球AI产业格局重塑的关键一步。

要说这CANN，其实就是华为昇腾芯片的核心软件层，跟英伟达的CUDA功能差不多，都是把AI代码转成芯片能执行的指令。

这次开源的CANN，不光能适配自家的昇腾910B芯片——这芯片的算力有376TFLOPS，比英伟达H20的148TFLOPS领先不少——还能跟PyTorch、TensorFlow这些常用的框架兼容，从写代码到模型部署，全流程都能覆盖。

这就便捷了，开发者不用重写代码，就能把现有的AI模型迁移到昇腾平台上，门槛一下子降低了好多。

英伟达的CUDA一直未开放，华为却反着来，选了“开源突围”。

开放CANN的架构后，百度、科大讯飞这些大公司都加入一起构建生态，还一起搞了个《CANN开源开放生态共建宣言》。

这么一来，用的人就多了：到2025年，昇思MindSpore框架已经有4万多活跃开发者，下载次数超1100万次，在国内新增的AI框架市场里占了30.26%，成了增速最快的开源框架。

虽说昇腾单块芯片的性能比英伟达还有差距，但华为靠系统级的创新，硬是找到条“差异化超车”的路。

他们自己研发的CloudMatrix 384超节点，用384颗昇腾芯片构建了个全互连的架构，在BF16算力（300PFLOPS）、内存容量和传输速度（2.1倍）这些关键指标，全都超过了英伟达的GB200 NVL72集群。

这种“集群发力”的方案，在超大模型训练里特别有效，比如在DeepSeek-R1推理任务里，它单卡的吞吐量（2300TPS）差不多能媲美英伟达H100了。

能做到这步，多亏了华为自己研发的全对等高速总线架构，不用以前那种“主从通信”，芯片之间能直接传数据，解决了大集群通信瓶颈的问题。

构建生态这块，华为是“政策加市场”一起推进：国内智算中心要求国产化率不低于85%，给昇腾稳固了基本盘；同时还联合软件公司做了代码自动迁移工具，帮开发者降低点工作量。

到2025年，昇腾的合作伙伴超过8500家，认证的解决方案超2.28万个，金融、医疗、能源这些关键领域都有覆盖。

但棘手的是，全球主流的AI模型还是很依赖CUDA，有家金融公司试过迁移模型，因为得重写30%的代码，最后只好放弃。

所以对华为来说，怎么在性能、易用性和生态丰富度上追上英伟达，还是接下来的核心问题。

雅阁汽车更多>>