Copyright 2017-2026 趣味课堂 版权所有
华为中国合作伙伴大会2026上,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。华为Atlas 350 AI训练推理加速卡搭载的全新昇腾950PR(Ascend 950PR)处理器,是面向2026年及以后AI算力需求的新一代旗舰NPU,核心定位为大模型推理Prefill阶段与推荐场景优化,其基本参数及与前代昇腾910系列(主力型号910B/910C)的核心差异的对比,重点围绕低精度数据格式、向量算力、互联带宽及自研HBM四大核心提升点展开,同时补充关键辅助参数,清晰呈现代际升级价值。
★ 昇腾950PR基本参数(核心规格)
核心定位:面向AI大模型推理Prefill阶段、推荐业务场景,兼顾训练辅助,是Atlas 350加速卡的核心计算单元,属于昇腾950系列的Prefill优化版。
制程工艺:采用中芯国际N+3工艺(等效5nm级别),通过四芯片合封方案实现高性能集成,芯片总面积达2660平方毫米,国产化率超90%(封装、组件均实现国产供应链覆盖)。
低精度数据格式:新增支持业界标准FP8/MXFP8/MXFP4格式,同时搭载华为自研HiF8格式,该格式兼顾FP8的高效性与接近FP16的精度,解决低精度计算的精度损失痛点,适配大模型推理的高效算力需求。
核心算力:FP8精度下算力达1 PFLOPS,MXFP4精度下算力高达2 PFLOPS;向量算力较前代昇腾910系列提升2倍,通过SIMD/SIMT新同构设计、内存访问粒度优化(从512字节细化至128字节),强化离散数据处理能力。
互联带宽:片间互联带宽达2 TB/s,较前代提升2.5倍,支持灵衢2.0协议及UB、PCIE、UBOE多种通信模式,板载4个灵衢高速端口,可实现4卡直连协同,支撑小型超节点构建与多卡算力池化。
自研HBM:搭载华为自研HiBL 1.0高带宽内存,作为低成本HBM替代方案,精准适配推理场景,最大支持128GB容量,有效降低推理场景的整体拥有成本(TCO),兼顾性能与经济性。
架构与生态:基于第三代DaVinciCore架构,兼容昇腾CANN异构计算架构与主流深度学习框架,支持训练推理一体,可独立部署或作为超节点服务器核心计算单元
★ 昇腾950PR与前代昇腾910系列(910B/910C)参数对比
前代昇腾910系列以当前量产主力910B(单芯)、910C(双芯合封)为对比基准,二者均为上一代AI训练推理核心芯片,定位中大型AI集群算力基座,与昇腾950PR形成明确代际差异,具体对比如下表:
参数维度
昇腾950PR(Atlas 350搭载)
昇腾910B(单芯)
昇腾910C(双芯合封)
代际提升亮点
制程工艺
中芯国际N+3(等效5nm)
7nm(国产N+2)
7nm(双芯合封)
制程升级,摆脱EUV依赖,国产化率大幅提升,良率稳定在40%-60%
低精度数据格式
支持FP8/MXFP8/MXFP4/自研HiF8
不支持FP8及以下低精度格式
不支持FP8及以下低精度格式
新增多类低精度格式,自研HiF8解决精度与效率平衡问题,大幅提升推理吞吐率
核心算力(FP16)
未单独标注(聚焦低精度优化)
320 TFLOPS
640 TFLOPS
低精度算力跃升,FP8达1PFLOPS、MXFP4达2PFLOPS,较910C提升2.5-5倍
向量算力
较前代提升2倍
基础向量算力,内存访问粒度512字节
与910B一致(双芯合封未提升单芯向量算力)
优化向量算力占比,采用SIMD/SIMT同构设计,细化内存访问粒度,提升离散数据处理效率
互联带宽
2 TB/s(片间),支持灵衢2.0
依赖HCCS/PCIe 4.0,带宽远低于2TB/s
基于MatrixLink互联,带宽低于2TB/s
带宽提升2.5倍,支持多通信模式,多卡协同效率大幅提升,支撑大规模集群部署
内存规格(HBM)
自研HiBL 1.0,最大128GB
32GB HBM2e,带宽1.6 TB/s
双芯合封,带宽3.2 TB/s
采用自研低成本方案,适配推理场景,容量与经济性兼顾,降低部署成本
核心定位
推理Prefill、推荐场景,训练辅助
中大规模模型训练、推理
超节点核心,千亿参数模型训练
场景更聚焦,针对性优化推理关键阶段,填补高精度推理场景国产算力空白
★ 核心参数提升的核心价值解读
昇腾950PR的四大核心参数提升,均精准对应上一代昇腾910系列的行业痛点,同时适配新一代AI大模型的发展需求:
低精度数据格式升级:解决了910系列无法支持FP8等高效低精度格式的问题,自研HiF8格式在保证模型精度损失小于1%的前提下,使推理吞吐量较910C提升3.8倍,大幅降低大模型推理的算力成本与时延。
向量算力提升:通过架构优化与内存访问细化,强化了对离散、碎片化数据的处理能力,尤其适配推荐算法、多模态推理等场景,使推荐推理场景性能提升2.5倍。
互联带宽跃升:2TB/s的片间互联的带宽,配合灵衢2.0协议,使8192卡超节点总算力可达8 EFlops(FP8),互联总带宽达16 PB/s,超越当前全球互联网峰值带宽的10倍,支撑万亿参数级大模型的集群部署。
自研HBM优化:HiBL 1.0作为低成本自研方案,既规避了海外HBM组件的依赖,又降低了推理场景的整体拥有成本,推动国产AI算力的规模化部署,同时为多卡协同提供稳定的内存支撑。
整体来看,昇腾950PR并非简单的参数堆砌,而是通过全链路优化,实现了“性能提升+成本优化+国产化突破”的三重价值,既延续了昇腾系列的生态优势,又弥补了前代在低精度推理、集群互联等方面的短板,为Atlas 350加速卡构建了“单卡强性能+灵衢强互联+超节点架构”的核心竞争力,助力国产AI算力摆脱海外依赖,适配更多中高端AI应用场景。