李曼玲、李飞飞团队顶会新作：给大模型测「空间智商」|论文_新浪科技

1. 真正的高级智能，在于认知自己的 “无知”

如果把当下最强的大模型（如 GPT-5.2、Gemini-3 Pro）丢进一个从未去过的虚拟房间，让它自己探索并构建地图，它能做到吗？

一直以来，我们评估多模态大模型的标准就像是 “开卷考试”：给一张静态图片，问图里有什么。在这样的标尺下，AI 似乎已经无所不能。然而，在真实的物理世界中，无论是家庭服务机器人还是自动驾驶汽车，面临的都是部分可观测（Partial Observability）的未知环境。

人类在探索未知时，展现出了极高的 “空间智商”：当你发现视野有盲区时，你的大脑会自动预测背后的 “不确定性（Uncertainty）”，并驱使你走上前去一探究竟，从而高效地获取信息（Information Gain）。

为了探究 AI 是否具备这种人类级别的高阶能力，西北大学李曼玲团队、斯坦福大学李飞飞与吴佳俊团队，以及华盛顿大学 Ranjay Krishna 团队，共同提出了一项针对基础模型的“空间智商测试”—— 空间理论 (Theory of Space)。

Theory of Space：主动探索，信念探测以及任务评估。左侧展示智能体在多房间局部观测下的轨迹俯视图；中间呈现其在文本或视觉环境中的 “移动 - 旋转 - 观测” 闭环，通过第一人称观测实时更新内部信念；右侧则通过空间任务及认知地图探测，对信念的利用与表征进行深度评估。

该研究指出，衡量具身大模型的真正试金石，不在于它能否机械地回答 “看到” 了什么，而在于它能否主动预测并消除环境中的 “不确定性”。这才是通向通用人工智能（AGI）的必经之路。

论文标题：Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
论文链接： https://arxiv.org/abs/2602.07055
代码： https://github.com/mll-lab-nu/Theory-of-Space
项目主页： https://theory-of-space.github.io/
数据集： https://huggingface.co/datasets/MLL-Lab/tos-data

2. 一场史无前例的 “空间 IQ 大考”

为了全方位、无死角地测量大模型的空间智商，研究团队精心打造了一个基于程序的 “多模态平行测试宇宙”。这个宇宙同时包含了象征纯粹逻辑推理的纯文本房间，以及基于 ThreeDWorld 引擎渲染的视觉房间。

模型只被赋予了几项最基础的本能动作：“移动”、“多角度旋转” 和 “就地观察”。它必须像一个真正的勘探者一样，在有限的试错成本下，自主规划探测路径，并判断何时已经获取了足够的信息来终止探索。

为了层层剥开 AI 空间认知的底色，这一测试系统从三大核心维度对其展开了步步紧逼的 “拷问”：

寻找未知（Construct）：面对 “盲人摸象” 般的局部碎片视野和极具挑战的 3D 渲染光影，模型能否克服感知迷雾，主动、高效地搜集信息，在脑海里无缝连结出一张全局的 “认知地图”？
敏锐纠错（Revise）：如果视线之外的房间格局被暗中调换（这对动态物理世界再常见不过），模型在重新路过时能否立刻警觉，并果断修改大脑里的旧数据？
高阶推演（Exploit）：建好地图不是终点，关键在于能否经受住应用层面的极致考验。研究团队精心设计了 9 大核心空间推理任务，既有考察第一人称代入感的 “路线级推理（Route-level）”（如视角转换、根据连续动作推演最终视野），也有高度抽象的 “全局级推理（Survey-level）”（如挑战脑海里的 360 度动态心智旋转、构建上帝视角的绝对坐标构图）。

任务套件总览图

给大脑做 “X 光透视”：认知地图显式探测

过去的研究往往只能通过动作对错来猜测 AI 的思路。而在 Theory of Space 中，研究团队创造性地引入了 “认知地图显式探测（Cognitive Map Probing）” 机制。

在模型每走一步时，都强制要求它以 JSON 格式默写出脑海中的虚拟地图分布，甚至直接在地图上选出 “尚未探索过的盲区”。这使得 AI 对不确定性的建模过程彻底透明化！

3. 成绩单出炉：面对不确定性，基础模型四大底层缺陷尽显

研究团队将 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考场。结果令人震撼：当 AI 面临 “自主求解不确定性” 的任务时，看似强大的它们集体迷失，暴露出令人担忧的四大深层病理。

缺陷一：毫无章法的试错陷阱，主动探索得分暴跌

为了设立标尺，研究者先用了一个 “策略脚本代理（Proxy Agent）” 去执行探索，也就是被动探索模式，发现只需平均约 9 步就能完全掌控整个房间结构；而大模型自主行动时，却往往耗费 14 到 20 步以上，并且不停地在已安全观测的区域里打转。

这种 “无头苍蝇” 式的探索，导致最终构建的地图质量严重受损。例如，面对同样的视觉宇宙，GPT-5.2 的动作准确率从被动接收信息的 57.1% 大幅下滑至主动探索的仅 46.0%。

症结在于：大模型无法形成一种高效、有条理的探索策略，并且不能很好地感知自身知识的边界，无法非常有效地标出哪些区域是未知的。

任务准确率 vs. 主动探索开销，灰图标代表被动探索模式

视觉模态下，主动探索与被动探索存在鸿沟

缺陷二：脆弱的记忆与 “信念漂移”

通过给大模型做 “认知透视”，研究者发现其内部的空间信念呈现出极强的脆弱性。模型可能在第一眼准确记住了一个沙发的坐标，但随着它转身去探索另一侧的门，先前对沙发的 “信念” 就会迅速退化模糊，甚至被稍后收到的无关信息无端覆盖。这种无法维持长效、稳定认知地图的缺陷，被称为极其致命的“信念漂移”。

缺陷三：细思极恐的 “信念惯性（Belief Inertia）”

在 “纠错” 能力的测试中，研究人员复刻了心理学著名的 “错误信念” 实验：等模型探索完一圈后，悄悄挪动了几个关键物体的位置或朝向。

极其具有戏剧性的一幕出现了：当大模型再次路过并亲眼看到物体已经不在原地时，它对物体位置的预测，居然仍固执地偏向了老地方！数据显示，GPT-5.2 在视觉模型中的 “信念惯性” 高达 68.9%。这说明当前的 AI 缺乏认知可塑性，极难用眼前的视觉新证据去推翻脑海中陈旧的语言先验。

缺陷四：难以跨越的 “模态鸿沟（Modality Gap）”

最终的统计数据指出了一条鸿沟：模型虽然在纯文本构建的虚拟房间中表现尚可（得益于长文本里强大的符号与语言逻辑），但一旦进入基于 3D 渲染的视觉世界（Vision World），面对必须依靠像素感知来推断深度的双重压力，得分直线下滑。

形成鲜明对比的是，人类在相同的视觉测试中，即使面对复杂布局，借助简单的工具也能轻松达到 99.0% 的超高准确率。总体来看，AI 在这方面仍与人类存在明显差距。

主动探索下视觉与文本存在巨大性能落差

4. 迈向下一代具身智能：从 “死记硬背” 到构建 “世界模型”

Theory of Space 这场大考绝不只是单纯的找茬挑刺，它更像是一份详尽的诊断书，指出了当下大模型在走向真实场景（如家用机器人、自动驾驶）时，亟待填补的能力空白。要孕育出真正能在复杂现实中自如穿梭的通用人工智能（AGI），未来的研究必须在以下方向寻求根本性突破：

突破一：培育具有强可塑性的 “空间长时记忆”

现有的多模态模型一旦转移视线，记忆往往如流沙般流失（信念漂移）；亦或是对陈旧的先验固执己见（信念惯性）。未来的 AI 需要构建类似人类海马体般灵活的回溯机制，既能稳固地锁定绝对空间结构，又能根据即时的视觉线索精准剔除 “过期报废” 的错误记忆。

突破二：引入内在 “好奇心” 驱动的强化探索

当前的 AI 大部分仍处于 “你提问、我回答” 的被动反应模式中。而破局的关键，在于引入对 “不确定性” 的感知与博弈（Uncertainty-Awareness）。智能体应当能够主动评估哪些区域存在信息盲区，在内在 “好奇心” 的奖励驱动下，规划出信息增益最大化的探测轨迹。

突破三：真正拥抱 3D 物理法则的 “世界模型（World Models）”

如今的视觉语言模型依旧停留在 2D 像素层面的表面模式匹配，并未真正理解真实三维空间中的几何刚体法则。一个强大的 “世界模型” 不仅仅是一张扁平的数据表，它应该天然内蕴了物体的恒存性特征、视角变换间的物理恒等式。只有当大模型能够闭上眼睛，在脑海里无缝推演 “我向前走两步再右转最终会看到什么” 时，它才算真正获得了通关物理世界的通行证。

学会认知自身盲区，并主动向不确定性出击。这场以 “空间 IQ” 为坐标的试炼，彻底穿透了常规刷题基准下大模型虚增的表面分数。预测未知，拥抱未知，这不仅是具身大模型打破瓶颈的起点，更是未来 AGI 构筑真实物理世界闭环的必由之路。

（本研究已被 ICLR 2026 接收为录用论文，欢迎访问项目主页获取完整的论文、代码与数据集。）