华为发布新一代算力芯片昇腾950PR，参数解析

华为中国合作伙伴大会2026上，华为重磅发布并展出了搭载全新昇腾950PR（Ascend 950PR）处理器的AI训练推理加速卡Atlas 350。华为Atlas 350 AI训练推理加速卡搭载的全新昇腾950PR（Ascend 950PR）处理器，是面向2026年及以后AI算力需求的新一代旗舰NPU，核心定位为大模型推理Prefill阶段与推荐场景优化，其基本参数及与前代昇腾910系列（主力型号910B/910C）的核心差异的对比，重点围绕低精度数据格式、向量算力、互联带宽及自研HBM四大核心提升点展开，同时补充关键辅助参数，清晰呈现代际升级价值。

★ 昇腾950PR基本参数（核心规格）

核心定位：面向AI大模型推理Prefill阶段、推荐业务场景，兼顾训练辅助，是Atlas 350加速卡的核心计算单元，属于昇腾950系列的Prefill优化版。

制程工艺：采用中芯国际N+3工艺（等效5nm级别），通过四芯片合封方案实现高性能集成，芯片总面积达2660平方毫米，国产化率超90%（封装、组件均实现国产供应链覆盖）。

低精度数据格式：新增支持业界标准FP8/MXFP8/MXFP4格式，同时搭载华为自研HiF8格式，该格式兼顾FP8的高效性与接近FP16的精度，解决低精度计算的精度损失痛点，适配大模型推理的高效算力需求。

核心算力：FP8精度下算力达1 PFLOPS，MXFP4精度下算力高达2 PFLOPS；向量算力较前代昇腾910系列提升2倍，通过SIMD/SIMT新同构设计、内存访问粒度优化（从512字节细化至128字节），强化离散数据处理能力。

互联带宽：片间互联带宽达2 TB/s，较前代提升2.5倍，支持灵衢2.0协议及UB、PCIE、UBOE多种通信模式，板载4个灵衢高速端口，可实现4卡直连协同，支撑小型超节点构建与多卡算力池化。

自研HBM：搭载华为自研HiBL 1.0高带宽内存，作为低成本HBM替代方案，精准适配推理场景，最大支持128GB容量，有效降低推理场景的整体拥有成本（TCO），兼顾性能与经济性。

架构与生态：基于第三代DaVinciCore架构，兼容昇腾CANN异构计算架构与主流深度学习框架，支持训练推理一体，可独立部署或作为超节点服务器核心计算单元

★ 昇腾950PR与前代昇腾910系列（910B/910C）参数对比

前代昇腾910系列以当前量产主力910B（单芯）、910C（双芯合封）为对比基准，二者均为上一代AI训练推理核心芯片，定位中大型AI集群算力基座，与昇腾950PR形成明确代际差异，具体对比如下表：

参数维度

昇腾950PR（Atlas 350搭载）

昇腾910B（单芯）

昇腾910C（双芯合封）

代际提升亮点

制程工艺

中芯国际N+3（等效5nm）

7nm（国产N+2）

7nm（双芯合封）

制程升级，摆脱EUV依赖，国产化率大幅提升，良率稳定在40%-60%

低精度数据格式

支持FP8/MXFP8/MXFP4/自研HiF8

不支持FP8及以下低精度格式

新增多类低精度格式，自研HiF8解决精度与效率平衡问题，大幅提升推理吞吐率

核心算力（FP16）

未单独标注（聚焦低精度优化）

320 TFLOPS

640 TFLOPS

低精度算力跃升，FP8达1PFLOPS、MXFP4达2PFLOPS，较910C提升2.5-5倍

向量算力

较前代提升2倍

基础向量算力，内存访问粒度512字节

与910B一致（双芯合封未提升单芯向量算力）

优化向量算力占比，采用SIMD/SIMT同构设计，细化内存访问粒度，提升离散数据处理效率

互联带宽

2 TB/s（片间），支持灵衢2.0

依赖HCCS/PCIe 4.0，带宽远低于2TB/s

基于MatrixLink互联，带宽低于2TB/s

带宽提升2.5倍，支持多通信模式，多卡协同效率大幅提升，支撑大规模集群部署

内存规格（HBM）

自研HiBL 1.0，最大128GB

32GB HBM2e，带宽1.6 TB/s

双芯合封，带宽3.2 TB/s

采用自研低成本方案，适配推理场景，容量与经济性兼顾，降低部署成本

核心定位

推理Prefill、推荐场景，训练辅助

中大规模模型训练、推理

超节点核心，千亿参数模型训练

场景更聚焦，针对性优化推理关键阶段，填补高精度推理场景国产算力空白

★ 核心参数提升的核心价值解读

昇腾950PR的四大核心参数提升，均精准对应上一代昇腾910系列的行业痛点，同时适配新一代AI大模型的发展需求：

低精度数据格式升级：解决了910系列无法支持FP8等高效低精度格式的问题，自研HiF8格式在保证模型精度损失小于1%的前提下，使推理吞吐量较910C提升3.8倍，大幅降低大模型推理的算力成本与时延。

向量算力提升：通过架构优化与内存访问细化，强化了对离散、碎片化数据的处理能力，尤其适配推荐算法、多模态推理等场景，使推荐推理场景性能提升2.5倍。

互联带宽跃升：2TB/s的片间互联的带宽，配合灵衢2.0协议，使8192卡超节点总算力可达8 EFlops（FP8），互联总带宽达16 PB/s，超越当前全球互联网峰值带宽的10倍，支撑万亿参数级大模型的集群部署。

自研HBM优化：HiBL 1.0作为低成本自研方案，既规避了海外HBM组件的依赖，又降低了推理场景的整体拥有成本，推动国产AI算力的规模化部署，同时为多卡协同提供稳定的内存支撑。

整体来看，昇腾950PR并非简单的参数堆砌，而是通过全链路优化，实现了“性能提升+成本优化+国产化突破”的三重价值，既延续了昇腾系列的生态优势，又弥补了前代在低精度推理、集群互联等方面的短板，为Atlas 350加速卡构建了“单卡强性能+灵衢强互联+超节点架构”的核心竞争力，助力国产AI算力摆脱海外依赖，适配更多中高端AI应用场景。

华为发布新一代算力芯片昇腾950PR，参数解析

雅阁汽车更多>>

奥迪汽车更多>>

轩逸汽车更多>>

奔驰汽车更多>>

本田汽车更多>>

汽车新闻更多>>