登录
首页 > 奥迪汽车 > 华为祭出AI推理黑科技UCM!海力士难了?不一定

华为祭出AI推理黑科技UCM!海力士难了?不一定

发布时间:2025-08-15 09:02:14 发布用户: 18855551234
都说英伟达是 AI 淘金热潮下的「卖铲人」,但大模型的上游赢家不只是英伟达和台积电,还有以 SK 海力士为代表的 HBM(高带宽内存)厂商。SK 海力士预计,HBM 将于每年 30%左右的速度增长,到 2030 年总规模将达到约 980 亿美元。
 
在大模型推理的世界里,HBM 几乎是性能与效率的代名词。无论是 GPT-5 这样的通用模型,还是面向垂直领域的专用大模型,推理阶段都要频繁访问海量的 Key-Value 缓存(KV Cache)。这些缓存像「记忆」一样存放着模型已处理过的上下文信息,而它们的读写速度,直接取决于显存带宽和容量:
 
这也是 HBM 的强项。
 
但 HBM 昂贵、稀缺,还被产能掣肘,直接成了当下推理性能和成本之间的一道硬门槛。不过就在最近举办的一场活动上,华为推出了与银联联合打造的一项 AI 推理新技术 ——UCM(Unified Cache Manager,统一缓存管理器),直指大模型推理中对 HBM 依赖过重的顽疾。
 
 
图片来源:华为
 
UCM 的核心思路并不神秘:不是把所有「记忆」都塞进贵又稀缺的 HBM,而是根据热度分区——常用的放在高速区,不常用的转移到更便宜、更容易扩展的存储里。这样一来,HBM 的压力减轻了,模型依然能快速响应,而且能记得更多内容。
 
更重要的是,UCM 把这一切封装成一个可适配多种推理引擎的统一套件,在软件层面重新定义推理存储调度的规则。
 
而按照华为的说法,这套技术能让长对话或长文本处理的速度大幅提升,首个字的生成时间缩短到原来的十分之一,模型的「记忆范围」扩展到过去的十倍。对于一个高度依赖硬件的领域来说,这听起来像是通过软件把硬件的瓶颈松开了一道口子:
 
几乎在改变 AI 推理的游戏规则。
 
为什么HBM需要UCM来救场?
在 AI 进入日常生活的今天,大模型的「推理」——也就是 AI 理解问题、给出答案的过程,才是真正创造价值的环节。问题是,推理体验并不总是令人满意,尤其是在国内。
 
在华为推出 UCM 技术的活动上,华为昇腾计算产品部总裁周跃峰博士就指出,今天模型训练、推理效率与体验都以 Token 数为量纲,「由于在基础设施投资当中的差距,中国互联网的大模型首 Token 时延普遍慢于海外互联网头部的首 Token 时延。」
 
 
图片来源:华为
 
不仅如此,生成 Token 的效率也更低。按照华为公布的数据,海外主流模型的单用户输出速度进入了 200 Tokens/s 区间(时延 5ms),但国内普遍小于 60Tokens/s(时延 50 - 100ms)。
 
简单来说,国内 AI 用户在同等问题下得到回复的速度可能更慢,甚至在处理长对话、长文档时,模型会「遗忘」上下文——看了这一段忘了上一段,看了下一段又忘了前面。而造成这种差距的一个重要原因就是:AI 推理的「记忆力」瓶颈。
 
问题在于,过去的推理系统几乎只用到了 HBM 和 DRAM,而对 SSD 这类低成本、大容量的存储几乎没有利用。这就像一个人只用脑袋和短期记忆,不用笔记本和外部存档,结果是要么记不住全部内容,要么被大量不常用的信息挤占了「脑子」里最宝贵的空间。
 
事实上,华为推出 UCM 要解决的,就是这种「内存结构失衡」的问题。UCM 通过算法把推理过程中的数据按热度和延时需求分级存放:实时需要的热数据放在 HBM ,中期会用到但不那么紧急的数据放到 DRAM,而那些体量大但访问频率低的「冷数据」则下沉到 SSD。
 
这样一来,HBM 可以专心处理最高优先级的任务,不再被冷数据「占坑」,整个系统的推理效率就能被充分释放。而 UCM 也并非一个孤立的软件工具,它由三部分组成:
 
1. 连接器:与主流推理引擎框架对接,例如华为自家的 MindiE、SGLang,以及业界常用的 vLLM,让不同系统都能无缝接入 UCM。
 
2. 加速程序:运行在智算服务器上的分级缓存管理算法,负责在不同存储层之间灵活调度数据。
 
3. 协同器:与专业共享存储打通,优化数据直通效率,降低 SSD 等慢速存储的延迟,实现三层存储的协同工作。
 
Copyright 2017-2026 趣味课堂 版权所有