华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本

华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
2025年08月12日 15:22 新浪科技

  新浪科技讯 8月12日下午消息,在2025金融AI推理应用落地与发展论坛上,华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),实现高吞吐、低时延的推理体验。

  在当今数字化时代,AI发展日新月异。大模型训练的热潮尚未消退,AI推理体验却已悄然成为AI应用的关键。中信建投在2025WAIC期间发布的白皮书指出,AI正从训练向推理的结构性转变而快速增长。在这样的大背景下,AI推理体验的重要性愈发凸显。

  推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。

  据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:郭栩彤

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-13 能之光 920056 7.21
  • 08-11 宏远股份 920018 9.17
  • 08-05 志高机械 920101 17.41
  • 08-01 广东建科 301632 6.56
  • 07-29 酉立智能 920007 23.99
  • 新浪首页 语音播报 相关新闻 返回顶部