安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】
来源:每日经济新闻 记者 蔡鼎 编辑 兰素英
近年来,大型语言模型(下称LLMs)的能力不断提高,引发了各界关于它们是否只是学习了表面的统计规律,还是形成了包含数据生成过程的内在模型(即世界模型)的争论。近日,来自麻省理工(下称MIT)的研究人员公布了他们的研究,就此给出了答案。
MIT研究人员Wes Gurnee和Max Tegmark于10月3日提交在预印本arXiv上的论文称,他们通过分析三个空间数据集(世界、美国、纽约市的地点)和三个时间数据集(历史人物、艺术作品、新闻标题)在Llama-2系列模型中的学习表征,发现了世界模型的证据。
研究人员发现,LLMs学习了空间和时间的线性表征,并且这些表征在不同的尺度和实体类型(如城市和地标)之间是统一的。此外,作者还识别出了单个的“空间神经元”和“时间神经元”,它们可靠地编码了空间和时间坐标。论文称,现代LLMs获取了关于空间和时间这些基本维度的结构化知识,证明LLMs学习的不仅仅是表面统计规律,而是真正的世界模型。
LLMs中存在“时间和空间神经元”
在空间和时间数据集层面,研究人员在实验中构建了六个数据集,包含有对应空间或时间坐标的地点或事件的名称,分别涵盖了不同的空间或时间尺度,包括全球范围内的地点、美国国内的地点,以及纽约市范围内的地点;过去3000年内去世的历史人物;1950年以来发布的歌曲、电影和书籍;以及2010年至2020年发布的新闻标题。

对于每个数据集,研究人员纳入了多种类型的实体,例如城市等人口密集场所和湖泊等自然地标,以研究不同对象类型的统一表征情况。此外,研究人员还维护并丰富了相关的元数据,以便通过更详细的分类分析数据。
研究人员使用标准的探测技术,即在LLMs的内部激活上拟合一个简单的模型来预测与输入数据相关联的目标标签。具体来说,给定一个激活数据集A和一个目标Y,包含时间或二维经纬度坐标,作者拟合线性回归探测器得到一个线性预测器。在未提示过的数据上强大的预测性表明,LLMs中有可被线性解码出来的空间和时间信息。
作者首先探测了Llama-2-{7B, 13B, 70B}每一层对每个空间和时间数据集的预测性能。结果显示,在所有数据集上,空间和时间特征都可以被线性探测器恢复,而且这些表达随着模型规模增大而变得更准确,并且在达到稳定状态之前,模型前半层的表达质量会平稳提高。例如,他们发现,Llama-2-70B竟然能够描绘出真实世界的文字地图。
总结来说,MIT研究人员的研究显示:LLMs不仅仅是随机的模型——Llama-2已经是包含世界的详细模型,甚至包含独立的“时间神经元”和“空间神经元”!
论文作者之一、MIT研究大模型优化的博士生Wes Gurnee的论文一经arXiv和推特(现X)发布,便引发广泛关注。其推文概述了论文的内容,截至发稿,已经有近300万次阅读。
LLMs学习的空间和时间线性表征在不同实体类型间是统一的
此外,作者还研究了Llama-2的这些空间或时间表征是否对提示词敏感,即是否可以通过上下文来引发或抑制这些事实回忆。直觉上,对于任何实体词,自回归模型都有动机产生一个适合应对任何未来可能的上下文或问题的表达。
为了研究这一点,研究人员创建了新的激活数据集,其中在每个实体词前加上不同的提示。在所有情况下,作者都包括了一个“空”提示,只包含实体词(和一个序列开始符号)。然后,作者包括了一个询问模型回忆相关事实的提示,例如“<地点>的经纬度是多少”或“<作者>的<书籍>发布于何时”。对于美国和纽约市数据集,作者还包括了询问这个地点在美国或纽约市哪里的提示,试图消除一些地点名称的歧义(例如City Hall)。
作为基准的模型,作者囊括了10个随机提示词作为提示。为了确定是否可以模糊主题,对于一些数据集,作者将所有实体名称全部大写。最后,对于标题数据集,作者尝试在最后一个词和在标题后面加上句号两种情况下进行测试。研究人员发现,显式地提示模型信息,或者给出消除歧义的提示,对Llama-2的输出结果几乎没有影响。然而,作者惊讶地发现随机干扰词和将实体大写会降低其输出内容的质量。唯一明显改善性能的修改是在标题后面加上句号进行探测,这表明句号被用来包含句子结束。

Wes Gurnee和Max Tegmark在论文的“讨论”章节指出,他们提供的证据表明,LLMs学习的空间和时间线性表征在不同实体类型之间是统一的,并且对提示词具有相当敏感的反应,而且存在对这些特征高度敏感的单个神经元。由此推论,在模型和数据量足够大的情况下,LLMs仅靠下一个标记的预测就足以学习世界的文字地图。
“我们的分析为今后的工作提出了许多有趣的问题。虽然我们表明可以线性地重建样本在空间或时间中的绝对位置,而且一些神经元使用了这些探测方向,但空间和时间表征的真正范围和结构仍不清楚。特别是,我们推测这种结构的最典型形式是离散化的分层网状结构,其中任何样本都被表示为其最近基点的线性组合。此外,LLMs可以也确实在使用这种坐标系,以线性探针(linear probe)的方式使用正确的基点方向线性组合来表示绝对位置。我们预计,随着LLMs规模的扩大,这一坐标系将通过更多的基点、更多的粒度以及更精确的实体到模型坐标的映射而得到增强。”研究人员写道。

作者还指出,在他们的分析以及更广泛的研究中,另一个干扰因素是他们的数据集中存在许多模型本身并不知道的“实体”,从而“污染”了他们的激活数据集。
“我们对这些了解空间和时间维度的世界模型是如何学习或使用的理解也仅仅触及了其表面。在初步的实验中,我们发现我们的模型在不依赖多步推理的情况下难以回答基本的时空关系问题,这使得因果干预分析变得复杂,但我们认为这是理解何时以及如何使用这些特征的关键步骤。”论文作者补充道。
封面图片来源:视觉中国-VCG111421248465
责任编辑:李桐


APP专享直播
热门推荐
杨铭宇黄焖鸡后厨乱象调查:隔夜菜、变质食材,顾客剩菜回收再加工 收起杨铭宇黄焖鸡后厨乱象调查:隔夜菜、变质食材,顾客剩菜回收再加工
- 2025年03月12日
- 03:17
- APP专享
- 扒圈小记
16,155
剩菜回收卖给顾客!杨铭宇黄焖鸡致歉
- 2025年03月12日
- 08:17
- APP专享
- 扒圈小记
11,810
华为整顿“违规招聘” ,多名产品线负责人被开除
- 2025年03月11日
- 10:07
- APP专享
- 北京时间
10,513

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 11:28:36
6G出利好!工信部:加快6G研发进程,推进算力中心建设布局优化;加强产业统筹布局和产能监测预警,适时扩大增值电信业务对外开放试点范围。昨晚算力板块出现利好,今天算力大涨。现在6G出利好,明天6G概念会接力吗?我们前天已经开始潜伏这个概念,希望明天启动吧! -
趋势领涨今天 10:49:26
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:49:18
信隆健康(sz002105)(002105.SZ)公告称,公司、公司控股股东和实际控制人不存在关于本公司的应披露而未披露的重大事项,或不存在处于筹划阶段的包括通用机器人(sz300024)、外骨骼机器人(sz300024)等的并购、重组等重大事项;公司目前主营业务包括自行车零配件、运动器材、康复辅助器材。此外,目前公司已披露的业绩预告不存在应修正情况。 -
数字江恩今天 09:53:29
明日关注图上的红色轮谷线支撑,这条线若不跌破,还有一次冲高3400整数位的机会。但是目前的市场气氛来看,要站稳3400需要再3400上下反复震荡来去除市场的恐高情绪,这不是一周内能完成的事情。所以短线来说,哪怕略为突破3400也不可以追高。 -
数字江恩今天 09:53:24
看5分钟图,图上在最近1个月时间里面,已经连续出现了3384/3388/3390/3392一系列的高点,都受阻于3386区间,卡在3400整数位之下。3386反复震荡并非好事,但是今日冲高回落也不能完全说明本次冲击3400失败。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:53:10
板块来看,今日题材主要是国产算力,云,ai应用领先,行业则是传媒游戏、互联网。今日的热点板块和昨日发生明显变化,这也体现了目前市场在3400整数关卡,没有持续性龙头热点的困境。 -
数字江恩今天 09:53:06
A股两市今日成交6485 + 10353 = 16838 亿人民币,相对昨日放量约2000亿。大盘横盘震荡后快速冲高新高,然后有快速回落,收跌8个点。个股方面,本周一二三,三个交易日个股涨跌比逐步变差,但今天依然略高于1:1 -
数字江恩今天 09:52:58
3400区间短线不追高 -
趋势领涨今天 09:40:50
外汇交易中心:全额免除银行间人民币外汇市场2年期(含)以上期限的衍生品交易手续费。减免手续费,主要是利好券商、期货公司等,这个可能是下午券商拉升的主要原因,但因为费用很少,所以,券商出现了冲高回落,不过,苍蝇也是肉! -
北京红竹今天 08:14:01
3、1.68万亿上涨2627家,下跌2560家,涨停94家,跌停2家。全天热点有点杂,持续性也没有,券商喊了一句老乡还跑了,反复活跃的还是科技,但表现也就那样,不值得一提。还是跷跷板。科技活跃,消费调整。等结果吧。