华为创新发布UCM技术，驱动Token经济蓬勃发展

投资分析机构中，AI（人工智能）正将冗杂的研究报告与企业财报数据拆解成一段段简明有力的结论，在分秒内为投资分析师提供有力的决策支撑；银行运营中心里，AI从数以万计的来电中精准捕捉每一个诉求，将海量的未处理数据实时量化；用户的手机上，AI在十几秒内便可完成信贷审批，迅速识别分析用户信息，识别、拦截金融风险……

可以看到，AI推理已经成为金融领域不可或缺的一项关键技术。随着AI技术在各领域应用逐渐走深向实，AI的“推理能力”正取代“训练能力”，成为下一个爆发式增长的关键。统计数据显示，当前AI算力需求中，推理已占据58.5%的份额；无论是国际顶尖模型GPT 5，还是国内头部平台“火山引擎”，其调用Token（文本处理的最小单元）所处理的线上推理请求数量都已远远超过训练所需。

华为公司副总裁、数据存储产品线总裁周跃峰表示：“AI时代，模型训练、推理效率与体验的量纲都以Token数为表征，Token经济时代已经到来。”

AI推理“不可能三角”成产业发展瓶颈

在谈到我国AI产业发展现状时，周跃峰直言：“当前，AI推理成本、效率和性能的‘不可能三角’，正成为制约产业发展的无形枷锁。”

要理解这一“不可能三角”的成因，就要从AI推理的核心运作机制——KV Cache（键值缓存）说起。抛去复杂的技术名词，可以将所谓的KV Cache简单理解为“AI为了能够快速衔接上下文语境而为自己准备的‘短期记忆’”。具体而言，AI会将对话中出现过的关键信息临时存储起来，避免在后续再次出现时进行重复思考。这是保障用户使用AI大模型进行多轮对话或长文档分析等功能时使用体验的核心机制，在多种复杂推理场景中均起到关键作用。

然而，这一功能在让AI推理变得更加高效的同时，也显著增加了AI推理的成本，带来了“推不动、推得慢、推得贵”三大瓶颈。

记者了解到，KV Cache的运行需要占用GPU显存，这就意味着在智能基础设施建设仍不够完善的当下，AI推理的能力仍会受限于GPU的性能，从而导致AI在处理复杂数据或长文本时，出现关键信息遗漏等情况，影响AI推理的完整性和准确性，也就是“推不动”。

同时，在我们日常使用大模型的过程中，模型回复“服务器繁忙”或生成到一半忽然中断的情况时有发生。这些熟悉的“报错”，其实就是AI推理“推得慢”的表现。这是由于随着AI可处理的推理任务日渐复杂，需要计算和存储的KV Cache也会随输入文本量的增加而增长，这会直接导致模型处理速度变慢，尤其是在多用户并发请求时出现严重的响应延迟，直接影响使用体验。

此外，周跃峰还指出，由于GPU的核心内存有限，许多本可复用的KV Cache被频繁丢弃和重复计算，造成了巨大的算力资源和成本浪费。这一难以避免的“推得贵”难题，让许多中小企业难以负担昂贵的算力成本，也延缓了AI服务规模化应用的脚步。

“在Token经济时代下，如何高效率地发掘Token的价值，才是破解这一‘不可能三角’的关键。”周跃峰说。

以技术创新助推“Token”经济发展

面向当前AI推理所面临的系统性挑战，产业给出的选择是“以巧破力”。近日，华为发布了一项创新AI推理技术——推理记忆数据管理器（UCM），面向三大核心痛点进行了针对性地全面优化。

具体而言，UCM是一款以KV Cache为中心的推理加速套件，融合了多类型缓存加速算法工具，可以分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，在实现高吞吐、低时延推理体验的同时，降低每Token的推理成本。

“UCM并非简单的单点优化，而是通过推理引擎插件、功能库和高性能KV Cache存取适配器三大组件的协同，从推理框架、算力和存储三个层面全面提升AI推理能力，实现AI推理更优体验、更低成本。”周跃峰向记者表示。

记者了解到，为了解决GPU容量不足带来的KV Cache丢失问题，UCM提出将KV Cache“分层卸载”的解决方案，根据KV Cache的重要性和时效性将其分类，将最核心的信息保存在可即时调用的核心内存中，相对次要的信息则被卸载至外置高性能存储装置中，作为“长期记忆”备用。通过这种创新的算法和架构，UCM突破了物理资源的限制，实现了推理上下文窗口的10倍级扩展，大幅提升了AI进行长篇叙事和深度思考的能力，也是从根本上解决了“推不动”“推得贵”的难题。

同时，面向“推得慢”瓶颈，UCM提出“以查代算”，依托层级化自适应的全局前缀缓存技术，将高频复用的历史对话、通用知识库、行业语料等以KV Cache的形式，固化成一个庞大的数据库。当AI接收到新的推理任务时，系统只需从数据库中检索并调用已有的结果，极大程度地减少了单次任务的计算量。周跃峰告诉记者，这一技术能够将AI 的首Token时延降低90%，革命性地优化了用户的使用体验。

然而，可以预见的是，随着AI处理的任务越来越多，UCM所建立的数据库也会越来越庞大，无论是查询还是计算，所需调用的算力资源必然会越来越多。“为解决这一局面，UCM搭载智能分级缓存能力，这也是能够实现分层卸载、以查代算的底层能力支撑。”周跃峰介绍道，“UCM能够记忆热度在HBM（热数据）、DRAM（温数据）和SSD（冷数据）等不同成本和速度的存储介质中实现按需流动，并融合多种稀疏注意力算法，帮助AI在海量数据中只聚焦于与当前任务最相关的关键信息，实现精细化资源调度。”从实机测试结果看，在UCM加持下，长序列场景下的系统吞吐量实现了2-22倍提升，显著降低了每Token的推理成本。

华为创新发布UCM技术，驱动Token经济蓬勃发展

雅阁汽车更多>>

奥迪汽车更多>>

轩逸汽车更多>>

奔驰汽车更多>>

本田汽车更多>>

汽车新闻更多>>