华为祭出AI推理黑科技UCM！海力士难了？不一定

都说英伟达是 AI 淘金热潮下的「卖铲人」，但大模型的上游赢家不只是英伟达和台积电，还有以 SK 海力士为代表的 HBM（高带宽内存）厂商。SK 海力士预计，HBM 将于每年 30%左右的速度增长，到 2030 年总规模将达到约 980 亿美元。

在大模型推理的世界里，HBM 几乎是性能与效率的代名词。无论是 GPT-5 这样的通用模型，还是面向垂直领域的专用大模型，推理阶段都要频繁访问海量的 Key-Value 缓存（KV Cache）。这些缓存像「记忆」一样存放着模型已处理过的上下文信息，而它们的读写速度，直接取决于显存带宽和容量：

这也是 HBM 的强项。

但 HBM 昂贵、稀缺，还被产能掣肘，直接成了当下推理性能和成本之间的一道硬门槛。不过就在最近举办的一场活动上，华为推出了与银联联合打造的一项 AI 推理新技术 ——UCM（Unified Cache Manager，统一缓存管理器），直指大模型推理中对 HBM 依赖过重的顽疾。

图片来源：华为

UCM 的核心思路并不神秘：不是把所有「记忆」都塞进贵又稀缺的 HBM，而是根据热度分区——常用的放在高速区，不常用的转移到更便宜、更容易扩展的存储里。这样一来，HBM 的压力减轻了，模型依然能快速响应，而且能记得更多内容。

更重要的是，UCM 把这一切封装成一个可适配多种推理引擎的统一套件，在软件层面重新定义推理存储调度的规则。

而按照华为的说法，这套技术能让长对话或长文本处理的速度大幅提升，首个字的生成时间缩短到原来的十分之一，模型的「记忆范围」扩展到过去的十倍。对于一个高度依赖硬件的领域来说，这听起来像是通过软件把硬件的瓶颈松开了一道口子：

几乎在改变 AI 推理的游戏规则。

为什么HBM需要UCM来救场？

在 AI 进入日常生活的今天，大模型的「推理」——也就是 AI 理解问题、给出答案的过程，才是真正创造价值的环节。问题是，推理体验并不总是令人满意，尤其是在国内。

在华为推出 UCM 技术的活动上，华为昇腾计算产品部总裁周跃峰博士就指出，今天模型训练、推理效率与体验都以 Token 数为量纲，「由于在基础设施投资当中的差距，中国互联网的大模型首 Token 时延普遍慢于海外互联网头部的首 Token 时延。」

图片来源：华为

不仅如此，生成 Token 的效率也更低。按照华为公布的数据，海外主流模型的单用户输出速度进入了 200 Tokens/s 区间（时延 5ms），但国内普遍小于 60Tokens/s（时延 50 - 100ms）。

简单来说，国内 AI 用户在同等问题下得到回复的速度可能更慢，甚至在处理长对话、长文档时，模型会「遗忘」上下文——看了这一段忘了上一段，看了下一段又忘了前面。而造成这种差距的一个重要原因就是：AI 推理的「记忆力」瓶颈。

问题在于，过去的推理系统几乎只用到了 HBM 和 DRAM，而对 SSD 这类低成本、大容量的存储几乎没有利用。这就像一个人只用脑袋和短期记忆，不用笔记本和外部存档，结果是要么记不住全部内容，要么被大量不常用的信息挤占了「脑子」里最宝贵的空间。

事实上，华为推出 UCM 要解决的，就是这种「内存结构失衡」的问题。UCM 通过算法把推理过程中的数据按热度和延时需求分级存放：实时需要的热数据放在 HBM ，中期会用到但不那么紧急的数据放到 DRAM，而那些体量大但访问频率低的「冷数据」则下沉到 SSD。

这样一来，HBM 可以专心处理最高优先级的任务，不再被冷数据「占坑」，整个系统的推理效率就能被充分释放。而 UCM 也并非一个孤立的软件工具，它由三部分组成：

1. 连接器：与主流推理引擎框架对接，例如华为自家的 MindiE、SGLang，以及业界常用的 vLLM，让不同系统都能无缝接入 UCM。

2. 加速程序：运行在智算服务器上的分级缓存管理算法，负责在不同存储层之间灵活调度数据。

3. 协同器：与专业共享存储打通，优化数据直通效率，降低 SSD 等慢速存储的延迟，实现三层存储的协同工作。

雅阁汽车更多>>