把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star|智能体|研究者|内存_新浪科技

当前，让大语言模型拥有更强的上下文处理能力是业界非常看重的热点主题之一。本文中，加州大学伯克利分校的研究者将 LLM 与操作系统巧妙地联系在了一起，在扩展上下文长度领域带来了新的进展。

近年来，大语言模型（LLM）及其底层的 transformer 架构已经成为了对话式 AI 的基石，并催生了广泛的消费级和企业应用程序。尽管有了长足的进步，但 LLM 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 LLM，它们的最大输入长度只允许支持几十条消息回复或短文档推理。

与此同时，受限于 transformer 架构的自注意力机构，简单地扩展 transformer 的上下文长度也会导致计算时间和内存成本成倍增加，这就使得全新的长上下文架构成为紧迫的研究课题。

不过，即使我们能够克服上下文缩放的计算挑战，但最近的研究却表明，长上下文模型很难有效地利用额外的上下文。

这如何解决呢？考虑到训练 SOTA LLM 所需的大量资源以及上下文缩放明显的回报递减，我们迫切需要支持长上下文的替代技术。加州大学伯克利分校的研究者在这方面有了新的进展。

在本文中，研究者探究了如何在继续使用固定上下文模型的同时，提供无限上下文的幻觉（illusion）。他们的方法借鉴了虚拟内存分页的思路，使得应用程序能够处理远超出可用内存的数据集。

基于该思路，研究者利用 LLM 智能体函数调用能力的最新进展，设计出了一个受 OS 启发、用于虚拟上下文管理的 LLM 系统 ——MemGPT。

论文主页：https://memgpt.ai/

arXiv 地址：https://arxiv.org/pdf/2310.08560.pdf

项目已经开源，在 GitHub 上已经斩获了 1.7k 的 star 量。

GitHub 地址：https://github.com/cpacker/MemGPT

方法概览

该研究从传统操作系统的分层内存管理中汲取灵感，在上下文窗口（类似于操作系统中的「主存（main memory）」）和外部存储之间有效地「分页」进出信息。MemGPT 则负责管理内存、LLM 处理模块和用户之间的控制流。这种设计允许在单个任务期间反复进行上下文修改，从而允许智能体更有效地利用其有限的上下文窗口。

MemGPT 将上下文窗口视为受限内存资源，并为 LLM 设计类似于传统操作系统中分层内存（Patterson et al., 1988）的层次结构。为了提供更长的上下文长度，该研究允许 LLM 通过「LLM OS」——MemGPT，来管理放置在其上下文窗口中的内容。MemGPT 使 LLM 能够检索上下文中丢失的相关历史数据，类似于操作系统中的页面错误。此外，智能体可以迭代地修改单个任务上下文窗口中的内容，就像进程可以重复访问虚拟内存一样。

MemGPT 能够让 LLM 在上下文窗口有限的情况下处理无界上下文，MemGPT 的组件如下图 1 所示。

MemGPT 通过函数调用协调主上下文（上下文窗口中的内容）和外部上下文之间的数据移动，MemGPT 根据当前上下文自主更新和检索。

值得注意的是，上下文窗口需要用 warning token 来标识其限制，如下图 3 所示：

实验及结果

在实验部分，研究者在两个长上下文域中来评估 MemGPT，分别是对话式智能体和文档处理。其中对于对话式智能体，他们扩展了现有的多会话聊天数据集（Xu et al. (2021)），并引入了两个新的对话任务以评估智能体在长对话中保留知识的能力。对于文档分析，他们根据 Liu et al. (2023a) 提出的任务对 MemGPT 进行基准测试，包括对长文档的问答和键值检索。

用于对话智能体的 MemGPT

当与用户对话时，智能体必须满足以下两个关键标准。