被GPT带飞的In-Context Learning发展现状如何？这篇综述梳理明白了|ICL_新浪科技

机器之心报道

编辑：小舟

来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文。

随着语言模型和语料库规模的逐渐扩大，大型语言模型（LLM）展现出更多的潜力。近来一些研究表明，LLM 可以使用 in-context learning（ICL）执行一系列复杂任务，例如解决数学推理问题。

来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文，详细梳理了 ICL 研究的当前进展。

论文地址：https://arxiv.org/pdf/2301.00234v1.pdf

in-context learning 的核心思路是类比学习，下图描述了语言模型如何使用 ICL 进行决策。

首先，ICL 需要一些样例来形成演示语境，这些样例通常用自然语言模板编写。然后，ICL 将查询问题和演示语境相联系，形成 prompt，并且将其输入语言模型进行预测。与监督学习需要使用反向梯度更新模型参数的训练阶段不同，ICL 不需要参数更新即可使预训练语言模型直接执行预测任务，并且模型有望学习演示样例中隐藏的模式，并据此做出正确的预测。

作为一种新的范式，ICL 有很多吸引人的优势。首先，演示样例用自然语言格式编写，这为与大语言模型关联提供了一个可解释的接口。通过改变演示样例和模板（Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c），这种范式使将人类知识纳入语言模型变得更加容易。第二，in-context learning 类似于人类通过类比学习的决策过程。第三，与监督式训练相比，ICL 是一个无需训练的学习框架。这不仅可以大大降低模型适应新任务的计算成本，而且还可以使语言模型即服务（LMaaS，Sun et al., 2022）成为可能，并轻松应用于大规模的现实任务。

尽管 ICL 有着大好的前景，但仍存在许多值得探究的问题，包括它的性能。例如原始的 GPT-3 模型就具备一定的 ICL 能力，但一些研究发现，通过预训练期间的适应，这种能力还可以获得显著的提升。此外，ICL 的性能对特定的设置很敏锐，包括 prompt 模板、语境样例的选择和样例顺序等。此外，ICL 的工作机制虽然看似合理，但仍不够清晰明了，能够初步解释其工作机制的研究也不多。

本篇综述论文总结道，ICL 的强大性能依赖于两个阶段：