为大模型评估提供新角度,科学家揭示大模型智能水平与压缩语料能力的规律

为大模型评估提供新角度,科学家揭示大模型智能水平与压缩语料能力的规律
2024年06月17日 20:17 DeepTech深科技

来源:DeepTech深科技

据了解,在大模型领域有研究人员认为智能与数据压缩紧密相关甚至是等价的。这种观点在大模型的快速发展中变得更加引人注目。

基于此,一些研究者提出大模型的压缩理论,将语言建模(Language Modeling)和压缩建立等价关系,从全新角度阐述了大模型训练的本质以及模型智能的来源。

但是,对于关于压缩能力和智能之间关系的实验证据却很十分有限。

为此,香港科技大学团队希望填补这一空白,通过实验研究来探讨大模型之中压缩和智能的关系。

其希望借此回答这样一个问题:如果一个大模型相比另一个大模型,能够以无损的方式使用更少的比特编码一个文本语料库,这是否表示它具有更高的智能?

在本项工作中,该课题组遵循“智能与数据压缩紧密相关甚至是等价的”的定义,从大模型在下游任务中的能力来衡量它的智能水平。

并聚焦于三个具有代表性的能力:知识能力、编程能力和数学推理能力。

为了实现上述的目标,他们在多达 30 个大模型和 12 项基准(benchmark)上进行实验,针对不同的大模型进行横向比较。

这些大模型有着不同的架构设计、不同的分词器、以及在不同的数据上训练。

结果如下图所示:

总体来看,大模型的下游能力(Y 轴)和其压缩能力(X 轴)高度线性相关,二者的皮尔森相关系数为-0.94。

并且,这种线性关系可以很好地延伸到各个子领域(图片右侧),甚至延伸到大多数的基准测试。

(来源:arXiv)(来源:arXiv

香港科技大学博士生黄裕振、张静涵是(共同)第一作者,指导老师为何俊贤。

图 | 黄裕振(来源:黄裕振)图 | 黄裕振(来源:黄裕振)

另据悉,他们已经在 GitHub 开源了所使用的语料数据集和数据收集代码等(https://github.com/hkust-nlp/llm-compression-intelligence)。

本次课题之中,尽管该团队尽可能全面地开展研究,但其依然存在一些局限性,但也为实现新的突破带来了一定机会。

机会之一在于:大模型通常可以分为两种基础模型(Base model)和微调模型(Finetune model)。本项研究只关注了基础模型,而微调模型的测试和评估依然有待探索。

机会之二在于:本次研究中的实验主要针对短文本和中长文本,对于长文本的场景依然有待探索。

机会之三在于:本次结论可能并不适用于未得到充分训练的模型,因此可以探讨在这些模型中压缩效率与智能之间的关系。

参考资料:

1.https://arxiv.org/pdf/2404.09937

运营/排版:何晨龙

香港科技大学
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片