摩尔线程新方法优化AI交互：显存节省最多82％|摩尔|AI|推理_新浪科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》，使得端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache显存占用节省最多82％。

本文引用地址：

近年来，

大型语言模型的进步，推动了语言模型服务在日常问题解决任务中的广泛应用。

然而，长时间的交互暴露出两大显著问题：

首先，上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销；

其次，尽管键值(KV)缓存技术能缓解冗余计算，但显著增加的GPU内存需求，导致推理批处理规模受限，同时GPU利用率低下。

为此，

提出了Round Attention，以解决这些问题。

首先，摩尔线程提出以轮次为分析单元研究Attention规律：

Round Attention专为多轮对话场景推理需求设计，以轮次为自然边界划分KV缓存。研究发现，轮次粒度的Attention分布存在两个重要规律。

其次，摩尔线程提出了Round Attention推理流水线；

基于发现的两个规律，将稀疏性从Token级提升至块级，选取最相关的块参与attention计算，减少attention计算耗时，并将不相关的块卸载到CPU内存，以节省显存占用。

这在保持推理精度的情况下，减少了推理耗时，降低了显存占用。

摩尔线程认为，轮次块稀疏性有三大优势：自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示，Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎， kv-cache显存占用则节省55-82％，并且在主观评测和客观评测两个数据集上，模型推理准确率基本未受影响。

关键词 : 摩尔 AI 推理端到端

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

摩尔线程新方法优化AI交互：显存节省最多82％

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号