谷歌DeepMind团队最新推出了一种名为“可微缓存增强”的新方法,用于提升大型语言模型的推理性能。这种方法不需要增加过多计算负担,在不明显提高延迟的情况下,可以显著改善大语言模型的响应准确性和上下文相关性。
当前提高大语言模型性能的方法通常涉及在任务处理期间生成中间步骤,但这会导致计算效率低下。而"可微缓存增强"利用了一个经过训练的协处理器来丰富大语言模型内部记忆,并保持基础大语言模型冻结状态。整个流程分为三个阶段:首先从输入序列生成key-value缓存,然后协处理器使用可训练软令牌处理该缓存并生成潜在嵌入,最后增强后的key-value缓存反馈给大语言模型以生成更丰富的输出。
在Gemma-2 2B模型上进行测试结果显示,“可微缓存增强”方法在多个基准测试中取得了显著成果。例如,在GSM8K数据集上准确率提高了10.05%,在MMLU上性能提升了4.70%。此外,该方法还降低了模型在多个标记位置的困惑度。
这项研究为增强大语言模型的推理能力提供了新的思路。通过引入外部协处理器来增强key-value缓存,研究人员可以在保持计算效率的同时显著提高大语言模型的性能,为处理更复杂的任务奠定了基础。
综上所述,"可微缓存增强"是一种创新且有效的技术,在大语言模型领域具有重要价值,并为未来发展带来了更多可能性。
新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)