Copyright 2017-2026 趣味课堂 版权所有
投资分析机构中,AI(人工智能)正将冗杂的研究报告与企业财报数据拆解成一段段简明有力的结论,在分秒内为投资分析师提供有力的决策支撑;银行运营中心里,AI从数以万计的来电中精准捕捉每一个诉求,将海量的未处理数据实时量化;用户的手机上,AI在十几秒内便可完成信贷审批,迅速识别分析用户信息,识别、拦截金融风险……
可以看到,AI推理已经成为金融领域不可或缺的一项关键技术。随着AI技术在各领域应用逐渐走深向实,AI的“推理能力”正取代“训练能力”,成为下一个爆发式增长的关键。统计数据显示,当前AI算力需求中,推理已占据58.5%的份额;无论是国际顶尖模型GPT 5,还是国内头部平台“火山引擎”,其调用Token(文本处理的最小单元)所处理的线上推理请求数量都已远远超过训练所需。
华为公司副总裁、数据存储产品线总裁周跃峰表示:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济时代已经到来。”
AI推理“不可能三角”成产业发展瓶颈
在谈到我国AI产业发展现状时,周跃峰直言:“当前,AI推理成本、效率和性能的‘不可能三角’,正成为制约产业发展的无形枷锁。”
要理解这一“不可能三角”的成因,就要从AI推理的核心运作机制——KV Cache(键值缓存)说起。抛去复杂的技术名词,可以将所谓的KV Cache简单理解为“AI为了能够快速衔接上下文语境而为自己准备的‘短期记忆’”。具体而言,AI会将对话中出现过的关键信息临时存储起来,避免在后续再次出现时进行重复思考。这是保障用户使用AI大模型进行多轮对话或长文档分析等功能时使用体验的核心机制,在多种复杂推理场景中均起到关键作用。
然而,这一功能在让AI推理变得更加高效的同时,也显著增加了AI推理的成本,带来了“推不动、推得慢、推得贵”三大瓶颈。
记者了解到,KV Cache的运行需要占用GPU显存,这就意味着在智能基础设施建设仍不够完善的当下,AI推理的能力仍会受限于GPU的性能,从而导致AI在处理复杂数据或长文本时,出现关键信息遗漏等情况,影响AI推理的完整性和准确性,也就是“推不动”。
同时,在我们日常使用大模型的过程中,模型回复“服务器繁忙”或生成到一半忽然中断的情况时有发生。这些熟悉的“报错”,其实就是AI推理“推得慢”的表现。这是由于随着AI可处理的推理任务日渐复杂,需要计算和存储的KV Cache也会随输入文本量的增加而增长,这会直接导致模型处理速度变慢,尤其是在多用户并发请求时出现严重的响应延迟,直接影响使用体验。
此外,周跃峰还指出,由于GPU的核心内存有限,许多本可复用的KV Cache被频繁丢弃和重复计算,造成了巨大的算力资源和成本浪费。这一难以避免的“推得贵”难题,让许多中小企业难以负担昂贵的算力成本,也延缓了AI服务规模化应用的脚步。
“在Token经济时代下,如何高效率地发掘Token的价值,才是破解这一‘不可能三角’的关键。”周跃峰说。
以技术创新助推“Token”经济发展
面向当前AI推理所面临的系统性挑战,产业给出的选择是“以巧破力”。近日,华为发布了一项创新AI推理技术——推理记忆数据管理器(UCM),面向三大核心痛点进行了针对性地全面优化。
具体而言,UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具,可以分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,在实现高吞吐、低时延推理体验的同时,降低每Token的推理成本。
“UCM并非简单的单点优化,而是通过推理引擎插件、功能库和高性能KV Cache存取适配器三大组件的协同,从推理框架、算力和存储三个层面全面提升AI推理能力,实现AI推理更优体验、更低成本。”周跃峰向记者表示。
记者了解到,为了解决GPU容量不足带来的KV Cache丢失问题,UCM提出将KV Cache“分层卸载”的解决方案,根据KV Cache的重要性和时效性将其分类,将最核心的信息保存在可即时调用的核心内存中,相对次要的信息则被卸载至外置高性能存储装置中,作为“长期记忆”备用。通过这种创新的算法和架构,UCM突破了物理资源的限制,实现了推理上下文窗口的10倍级扩展,大幅提升了AI进行长篇叙事和深度思考的能力,也是从根本上解决了“推不动”“推得贵”的难题。
同时,面向“推得慢”瓶颈,UCM提出“以查代算”,依托层级化自适应的全局前缀缓存技术,将高频复用的历史对话、通用知识库、行业语料等以KV Cache的形式,固化成一个庞大的数据库。当AI接收到新的推理任务时,系统只需从数据库中检索并调用已有的结果,极大程度地减少了单次任务的计算量。周跃峰告诉记者,这一技术能够将AI 的首Token时延降低90%,革命性地优化了用户的使用体验。
然而,可以预见的是,随着AI处理的任务越来越多,UCM所建立的数据库也会越来越庞大,无论是查询还是计算,所需调用的算力资源必然会越来越多。“为解决这一局面,UCM搭载智能分级缓存能力,这也是能够实现分层卸载、以查代算的底层能力支撑。”周跃峰介绍道,“UCM能够记忆热度在HBM(热数据)、DRAM(温数据)和SSD(冷数据)等不同成本和速度的存储介质中实现按需流动,并融合多种稀疏注意力算法,帮助AI在海量数据中只聚焦于与当前任务最相关的关键信息,实现精细化资源调度。”从实机测试结果看,在UCM加持下,长序列场景下的系统吞吐量实现了2-22倍提升,显著降低了每Token的推理成本。