李飞飞长文畅谈“空间智能”：是 AI 的下一个前沿，更是实现机器真正智能的关键突破|AI|智能|机器_新浪科技

IT之家 11 月 11 日消息，11 月 10 日，斯坦福大学教授、WorldLabs 联合创始人李飞飞发表长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier（从文字到世界：空间智能是 AI 的下一个前沿）》。

李飞飞认为，当前以大型语言模型为代表的 AI 虽然擅长处理抽象知识，却如同在“黑暗中行走”，缺乏对物理世界的真实理解。而空间智能 —— 即人类用以理解、导航并与三维世界交互的底层能力，将是实现机器真正智能的关键突破。

IT之家附原文大意如下：

1950 年，当计算机还只是自动算术和简单逻辑时，艾伦・图灵提出了一个至今仍在引起共鸣的问题：机器会思考吗？他看到了别人看不到的东西，这需要非凡的想象力：智能有朝一日可能会被构建出来，而不是天生就有的。这一洞见后来引发了一场名为 AI (AI) 的不懈科学探索。在我自己从事 AI 工作的 25 年里，我仍然能从图灵的愿景中获得启发。但我们离目标有多近了呢？答案并不简单。
今天，大语言模型（LLMs）等领先的 AI 技术已经开始改变我们访问和处理抽象知识的方式。然而，它们仍然是黑暗中的文字匠；口才好但缺乏经验，知识渊博但没有根基。空间智能将改变我们创造和互动真实世界和虚拟世界的方式 —— 彻底改变故事叙述、创造力、机器人技术、科学发现等等。这是 AI 的下一个前沿。
自我进入 AI 领域以来，视觉与空间智能一直是我探索的指南针。这也是我花费数年构建 ImageNet 的原因 —— 这是第一个大规模视觉学习与基准数据集，是现代 AI 诞生的三大关键因素之一，另外两个是神经网络算法和现代计算能力（如 GPU）。这也是我在斯坦福大学的实验室过去十年将计算机视觉与机器人学习结合的原因。这也是我和联合创始人贾斯廷・约翰逊、克里斯托夫・拉斯纳、本・米尔登霍尔创建 World Labs 的原因：首次全面实现这一可能性。
空间智能：人类认知的支架
AI 从未如此令人兴奋。大语言模型等生成式 AI 模型已经从研究实验室走向日常生活，成为数十亿人的创造力、生产力和沟通工具。它们已经展示了曾经被认为是不可能的能力，轻松地生成连贯的文本、大量的代码、逼真的图像，甚至短视频片段。AI 是否会改变世界已经不再是一个问题。按照任何合理的定义，它已经改变了世界。
然而，仍有许多事物超出了我们的能力范围。自主机器人的愿景仍然是引人入胜但具有推测性的，远未达到未来学家长期以来承诺的日常生活用品的程度。在疾病治疗、新材料发现和粒子物理学等领域大规模加速研究的梦想在很大程度上仍未实现。而真正理解并赋能人类创造者的 AI 的承诺，无论是对学习分子化学中复杂概念的学生、可视化空间的建筑师、构建世界的电影制作人，还是任何寻求完全沉浸式虚拟体验的人来说，仍然遥不可及。
要了解为什么这些能力仍然难以捉摸，我们需要研究空间智能是如何演变的，以及它如何塑造我们对世界的理解。
长期以来，视觉一直是人类智能的基石，但它的力量源于更根本的东西。早在动物能够筑巢、照顾幼崽、用语言交流或建立文明之前，简单的感知行为就悄然引发了通往智能的进化之旅。
这种看似孤立的从外部世界收集信息的能力，无论是微弱的光芒还是纹理的感觉，都在感知和生存之间架起了一座桥梁，而且随着世代的更迭，这座桥梁只会变得更加强大和复杂。神经元层层叠加，从这座桥梁中生长出来，形成了神经系统，这些系统解释世界并协调生物体与其周围环境之间的互动。
因此，许多科学家推测，感知和行动成为了驱动智能进化的核心循环，也是自然创造我们这个物种的基础 —— 我们是感知、学习、思考和行动的终极体现。
空间智能在定义我们如何与物理世界互动方面起着根本性的作用。每天，我们都依靠它来完成最普通的行为：通过想象保险杠和路缘之间越来越窄的间隙来停车，接住扔过房间的一串钥匙，在拥挤的人行道上行走而不会发生碰撞，或者在不看的情况下睡眼惺忪地将咖啡倒入杯子。
在更极端的情况下，消防员在不断变化的烟雾中穿梭于倒塌的建筑物中，对稳定性和生存做出瞬间判断，通过手势、肢体语言和一种共享的专业本能进行交流，而这种本能是无法用语言替代的。孩子们在语言表达能力形成之前的几个月或几年里，通过与环境的有趣互动来学习这个世界。所有这些都以直观、自动的方式发生 —— 这是机器尚未实现的流畅性。
空间智能也是我们想象力和创造力的基础。从古代的洞穴绘画到现代电影，再到沉浸式视频游戏故事讲述者在脑海中创造出独一无二的丰富世界，并利用多种视觉媒体将其呈现给他人。无论是孩子们在海滩上建造沙堡，还是在电脑上玩 Minecraft，以空间为基础的想象力构成了真实或虚拟世界中互动体验的基础。在许多行业应用中，物体、场景和动态互动环境的模拟为无数关键业务用例提供支持，从工业设计到数字孪生，再到机器人培训。
历史充满了定义文明的时刻，其中空间智能发挥了核心作用。
在古希腊，埃拉托斯特尼将阴影转化为几何 —— 在亚历山大测量一个 7 度的角度，恰好在太阳在西奈没有投下阴影的时刻，以计算地球的周长。
哈格里夫的“珍妮纺织机”通过空间洞察革命性地改变了纺织制造：将多个纺锤并排放置在一个框架中，使一名工人能够同时纺纱多根线，生产力提高了八倍。
沃森和克里克通过物理构建 3D 分子模型发现了 DNA 的结构，操纵金属板和电线，直到碱基对的空间排列恰到好处。
在每一个案例中，当科学家和发明家必须操纵物体、可视化结构并推理物理空间时，空间智能推动了文明的进步 —— 这些都无法仅通过文字来捕捉。
空间智能是我们认知建立的基础。它在我们被动观察或主动创造时发挥作用。它驱动着我们的推理和计划，即使是在最抽象的主题上。
而且，它决定了我们的互动方式 —— 语言或行动，与他人或环境。尽管大多数人不每天像埃拉托斯特尼那样发现新知，但思考方式相同：通过感官感知世界，再直觉理解其空间运作方式。
遗憾的是，今天的 AI 还没有像这样思考。
过去几年确实取得了巨大的进步。多模态 LLMs（MLLMs）在文本数据之外，还使用大量多媒体数据进行训练，已经引入了一些空间感知的基础知识，如今的 AI 可以分析图片、回答有关图片的问题，并生成超逼真的图像和短视频。通过传感器和触觉技术的突破，我们最先进的机器人已经可以在高度受限的环境中开始操作物体和工具。
然而，坦率地说，AI 的空间能力仍然远未达到人类水平。而且，其局限性很快就会显现出来。最先进的 MLLM 模型在估算距离、方向、大小或旋转物体时表现几乎与随机相同。它们无法导航迷宫、识别捷径或预测基本物理规律。AI 生成的视频虽然新兴且非常酷，但是通常在几秒钟后就会失去连贯性。
虽然目前最先进的 AI 在阅读、写作、研究和数据模式识别方面表现出色，但在理解或互动物理世界时存在根本局限。我们对世界的看法是整体性的 —— 不仅仅是我们所看到的东西，还包括一切在空间上的关系、意义以及重要性。通过想象、推理、创造和互动（而不仅仅是描述）来理解这一点，是空间智能的力量。
没有它，AI 就与它试图理解的物理现实脱节。它无法有效地驾驶我们的汽车，无法在我们的家庭和医院中引导机器人，无法为学习和娱乐实现全新的沉浸式和互动式体验，也无法加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道，“我的语言的局限意味着我的世界的局限。”我不是哲学家，但我知道至少对于 AI 来说，不仅仅只有文字。空间智能代表着超越语言的前沿领域 —— 它是一种连接想象、感知和行动的能力，为机器真正提升人类生活开启了可能性，从医疗保健到创造力，从科学发现到日常帮助。
AI 的下一个十年：构建真正具有空间智能的机器
那么，我们该如何构建具有空间智能的 AI 呢？如何才能创造出能够像埃拉托斯特尼一样用视觉进行推理、像工业设计师一样精确地进行工程设计、像故事讲述者一样富有想象力地进行创作、以及像急救人员一样流畅地与环境互动的模型？
构建具有空间智能的 AI 需要比 LLMs 更雄心勃勃的东西：世界模型，这是一种新型的生成模型，它在理解、推理、生成以及与语义、物理、几何和动态复杂的世界（虚拟或真实）交互方面的能力远远超出了当今 LLMs 的范围。
该领域尚处于起步阶段，目前的方法包括抽象推理模型到视频生成系统。World Labs 成立于 2024 年初，基于这样的信念：基础方法仍在建立中，这将成为未来十年的决定性挑战。
在这个新兴领域，最重要的是确立指导“发育”的原则。对于空间智能，我通过三个基本能力来定义世界模型：
1. 生成性：世界模型可以生成具有感知、几何和物理一致性的世界
能够解锁空间理解和推理的世界模型也必须生成它们自己的模拟世界。它们必须能够生成遵循语义或感知指令的、无限多样且不同的模拟世界 —— 同时在几何、物理和动态上保持一致 —— 无论它们代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该根据其内在的几何结构进行隐式还是显式表示。
此外，除了强大的潜在表示之外，我认为通用世界模型的输出还必须允许为许多不同的用例生成世界的显式、可观察状态。特别是，它对现在的理解必须与它的过去紧密相连；与导致当前世界的先前状态相连。
2. 多模态：世界模型在设计上是多模态的
正如动物和人类一样，世界模型应该能够处理各种形式的输入 —— 在生成式 AI 领域中被称为“提示”。给定部分信息，无论是图像、视频、深度图、文本指令、手势或动作，世界模型应该预测或生成尽可能完整的世界状态。这需要以真实的视觉保真度处理视觉输入，同时以同等的便利性解释语义指令。这使得智能体和人类都能够通过各种输入与模型交流关于世界的信息，并获得各种输出作为回报。
3. 交互性：世界模型可以根据输入的操作输出下一个状态
最后，如果动作和 / 或目标是世界模型的提示的一部分，那么它的输出必须包括世界的下一个状态，以隐式或显式的方式表示。当仅给定一个动作（无论是否带有目标状态）作为输入时，世界模型应产生与世界先前状态、预期目标状态（如果有）以及其语义含义、物理定律和动态行为相一致的输出。
随着空间智能世界模型在推理和生成能力方面变得更加强大和稳健，可以想象，在给定目标的情况下，世界模型本身不仅能够预测世界的下一个状态，而且还能够根据新状态预测下一个动作。
这一挑战的范围超过了 AI 以前面临的任何挑战。
虽然语言是人类认知中一种纯粹的生成现象，但世界的运行规则要复杂得多。例如，在地球上，重力控制着运动，原子结构决定了光如何产生颜色和亮度，无数的物理定律约束着每一次相互作用。即使是最奇特、最具创造力的世界，也是由空间物体和主体构成的，它们遵循定义它们的物理定律和动态行为。要协调所有这些 —— 语义、几何、动态和物理，都需要全新的方法。
表示一个世界的维度比像语言这样的一维、顺序信号的维度要复杂得多。要实现能够提供我们人类所享有的那种通用能力的世界模型，需要克服几个强大的技术障碍。在 World Labs，我们的研究团队致力于朝着这个目标取得根本性的进展。
以下是我们目前的一些研究课题：
一种用于训练的新的通用任务函数：定义一个像 LLMs 中预测下一个 Token 一样简单而优雅的通用任务函数，长期以来一直是世界模型研究的核心目标。它们的输入和输出空间的复杂性使得这种函数本质上更难以公式化。但是，虽然还有很多东西需要探索，但这种目标函数和相应的表示必须反映几何和物理定律，尊重世界模型作为想象和现实的基础表示的根本性质。
大规模训练数据：训练世界模型需要比文本管理复杂得多的数据。好消息是：海量数据源已经存在。互联网规模的图像和视频集合代表着丰富、易于访问的训练材料 —— 挑战在于开发能够从这些二维图像或基于视频帧的信号（即 RGB）中提取更深层次空间信息的算法。过去十年的研究表明，扩展定律将语言模型中的数据量和模型大小联系起来；世界模型的关键在于构建能够以相当规模利用现有视觉数据的架构。此外，我不会低估高质量合成数据和深度和触觉信息等额外模态的力量。它们在训练过程的关键步骤中补充了互联网规模的数据。但前进的道路取决于更好的传感器系统、更强大的信号提取算法和更强大的神经模拟方法。
新的模型架构和表征学习：世界模型的研究将不可避免地推动模型架构和学习算法的进步，尤其是在当前的多模态大型语言模型（MLLM）和视频扩散范式之外。这两种模型通常将数据标记化为一维或二维序列，这使得简单的空间任务变得不必要地困难 —— 比如计算短视频中独特的椅子数量，或者记住一个小时前房间的样子。替代架构可能会有所帮助，例如用于标记化、上下文和记忆的 3D 或 4D 感知方法。例如，在 World Labs，我们最近在名为 RTFM 的实时生成帧模型上的工作已经证明了这种转变，该模型使用空间定位的帧作为空间记忆的一种形式，以实现高效的实时生成，同时保持生成世界的持久性。
显然，在通过世界建模完全释放空间智能之前，我们仍然面临着严峻的挑战。这项研究不仅仅是一种理论上的实践，它还是一个新型创意和生产力工具的核心引擎。World Labs 内部的进展令人鼓舞。
最近，我们与数量有限的用户分享了 Marble 的惊鸿一瞥，这是首个可以通过多模态输入进行提示的世界模型，可以生成并维护一致的 3D 环境，供用户和故事讲述者在他们的创意工作流程中探索、互动和进一步构建。我们正在努力尽快向公众开放！
Marble 只是我们在创建真正具有空间智能的世界模型道路上的第一步。随着进展的加速，研究人员、工程师、用户和商业领袖都开始认识到它所蕴含的非凡潜力。下一代世界模型将使机器达到一个全新的空间智能水平 —— 这一成就将释放当今 AI 系统中仍然很大程度上缺失的关键能力。