华为正式开源UCM技术:最大提升22倍 AI推理性能跃升

华为正式开源UCM技术:最大提升22倍 AI推理性能跃升
2025年11月05日 16:36 快科技

快科技11月5日消息,近日,华为宣布针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。

据介绍,UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展,显著提升了AI推理性能。

目前,UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取UCM源代码与技术文档。

UCM产品架构

【本文结束】如需转载请务必注明出处:快科技

责任编辑:随心

推理华为AICache
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片