朱嘉明：具身智能的崛起、后果和意义（1.4万字长文）_

来源：经济学家圈

朱嘉明资料图。横琴数链数字金融研究院朱嘉明教授为刘志毅著《具身智能—AI智能体、世界模型与人类可触碰的未来》一书撰写了序言《具身智能的崛起、后果和意义》。

具身智能的崛起、后果和意义

（一）

在人工智能一波又一波的浪潮中，经过人工智能嵌入的具身智能（embodied intelligence）异军突起，正在成为人工智能科技体系的集大成者，在收割人工智能的各类成果中，全面崛起。而在具身智能的背后，正在走来的是一个将与碳基人类并存，很可能凌驾于碳基人类的新物种。可以这样想象，具身智能所体现的新物种，如同金庸笔下的中的“九阳神功”和“吸星大法”那种超自然奇幻力量，贯通武学至理，成就永恒的“金刚不坏之躯”。[1]

在2024年，如何思考和解读在人工智能技术改造和改变的具身智能，具有科技、学术和现实意义。正是在这样的背景下，刘志毅撰写的《具身智能—AI智能体、世界模型与人类可触碰的未来》一书的出版，正是生逢其时。

（二）

关于具身智能的理论，源远流长，至少可以追溯到认知主义、计算主义和笛卡尔（RenéDescartes，1596 - 1650）的二元论。以埃德蒙德·胡塞尔（Edmund Husserl，1859—1938），马丁·海德格尔 (Martin Heidegger, 1889-1976 )和莫里斯·梅洛－庞蒂 (Maurice Merleau-Ponty, 1908-1962)所代表的现象学家为具身智能理论做出了重要贡献。莫里斯·梅洛－庞蒂有过极为清晰的观点：身体是存在于世界上的载体，对于一个生物来说，拥有身体就是拥有在一个确定的环境的中介。[2]

具身智能的思想演进如下图[3]：

具身认知的历史脉络

近年来，具身智能日益成为一个跨学科的概念和理论。人们逐渐在具身理论和概念方面形成共识。“通过使用‘具身’一词，我们的意思是强调两点：首先，认知取决于拥有具有各种感觉运动能力的身体所带来的各种经验，其次，这些个体的感觉运动能力本身就嵌入到一个更具包容性的生物、心理和文化背景中”。[4]见下图：[5]

具身认知的跨学科性质

值得注意到是，在科幻小说史中，具身智能却早已经成就了无数故事的主题和主人公角色。甚至可以说，没有具身智能的想象力和创造力，就没有科幻小说和其他艺术形式。从雪莱夫人在1818年问世的《弗兰肯斯坦》的“科学怪人”，到威廉·吉布森1984年发表的《神经漫游者》主人公凯斯，其实都是具身智能和具身智能物种的呈现。毫无疑义，文学性的具身智能远远走在了具有科技支持和现实性的具身智能之前。

（三）

“在人类心智与人工智能的交汇点上，我们正经历着一场革命”。从比较宏观的角度看，人工智能嵌入的具身智能是三个变量的结合：人工智能，具身智能和自然智能。在这三个变量的结合中，形成了所谓基于人工智能技术的具身智能。

在本书中，作者触及到人工智能嵌入的具身智能的概念和理论。“在人工智能（AI）的广阔领域中，具身智能（Embodied AI）的概念正引领一场深刻的范式转变。具身智能不仅仅是对机器人物理形态的智能化，它更是一种哲学和认知科学的融合体现，强调智能的生成与发展源自智能体与环境之间的动态互动”。“具身通用人工智能通过感知-认知-行为的闭环，实现了对世界的持续学习和适应。这个闭环过程是AI系统智能行为的基础，它涉及到对外部世界的感知、基于感知数据的认知处理、以及基于认知结果的行动决策”。简言之，“具身认知理论的核心思想是，智能并非一个抽象的、独立于身体和环境之外的实体，而是与个体的生理特性和所处的环境紧密相连的”。

作者认为，具身智能所关注的是“身体、大脑和环境之间的相互作用”。“正如生物学中的自然选择过程一样，具身人工智能系统提供视觉、听觉和触觉等感官模态，捕捉外部世界的信息，并将其转化为抽象的概念和模式”。“旨在通过模拟人类的学习方式，使智能体在物理或虚拟环境中通过互动完成复杂任务的学习”。“具身智能的核心在于其学习方式的革新。与传统AI依赖大量数据和算法不同，具身智能更侧重于通过感知、探索和实验与物理世界的互动来学习，这与人类婴儿的学习过程有着惊人的相似性。从学习行走到掌握语言，人类的学习过程充满了探索和实践，具身智能正是模仿这一过程，以实现更加自然和灵活的智能行为”。

进而，作者努力描述了实现人工智能科技和具身智能结合的科学方法，涉及“机器人学”、深度学习、强化学习、机器视觉、计算机图形学、自然语言处理、元学习和认知科学。

关于机器人学的作用，作者写到：“在认知模型的整合方面，机器人学的研究推动了机器学习、神经网络、计算机视觉与认知科学理论的交叉应用。这种跨学科的合作，使得机器人能够在处理外部感官输入的同时，进行更高级别的信息处理和决策制定，从而实现更加复杂和自主的行为模式”。

那么，是否可以对人工智能嵌入的具身智能加以定义呢？回答是肯定的。以下的描述具有概括性：“具身智能是通过考虑智能体与其环境（位置性）之间的严格耦合来设计和理解具身和定位智能体的智自行为的计算方法，由智能体自身的身体、知觉和运动系统以及大脑（具身）的约束所介导的”。[6]

本文作者总结的人工智能嵌入的具身智能定义是：以人形机器人等各类机器人作为物理载体，通过构建智能系统支持的感知层、交互层、运动层，形成诸如强化学习能力，并以第一人称视角，在可持续的类人类的行为反馈中，实现形态计算、感觉运动协调和发展具身认知，以及对外部物理世界的互动。

（四）

生物学是具身智能的前提。这是因为，自然智能基于大脑的高级功能，而大脑高级功能是神经细胞通过完成信号的整合实现的。大脑是极端复杂的组织。“脑的本质是集成与复合同时存在”，“脑存在于身体这个环境中”。[7]大脑执行的功能最终从根本上区分了有脑动物（encephalized animals）和地球其他生命形式。

在人的神经系统中，神经元是关键所在。“在人体数十以个神经元中，每个神经元都有数千个突触，进行着人体中股民最大、最协同的细胞对话。神经元之间的连接纷繁复杂，不计其数。成人有800亿个神经元，其中每个神经元都有多达10万个突触，因而总数可能达到10000亿。然而更令人震惊的是，神经元之间的连接还会再同一时间以多种方式进行不断变换。神经元有时会构成一种回路，有时又会构成另一种截然不同的回路”。[8]

大脑截面结构

来源：Wikimedia Commons

更为重要的是，神经具有可塑性，即“神经可塑性”。其本质就是神经元连接变化所致。“神经可塑性可以改变一个树突棘、多个树突棘、整个树突、整个神经元，也可以改变大脑各部分之间宽广神经回路的多个神经元”。[9]

所以，“这种从生物学中提炼的灵感，激发了模仿大脑神经元网络连接和信息处理机制的神经网络设计，这些网络不仅能够执行复杂的数据分析，还能够进行精密的决策制定，宛如技术复刻了大自然的智慧，赋予了机器类似生物的思考和学习机制”。

作者具体提出了生物学对于具身智能的若干作用：其一，生物体的神经系统、免疫系统、细胞信号传导等复杂机制，是汲取生物学智慧的首要步骤。神经网络的设计受到了人脑结构的启发。其二，模拟生物进化的原理，如自然选择、遗传和变异，对于指导AI算法的迭代和优化至关重要。遗传算法就是对生物的自然选择和遗传机制的模仿。其三，借鉴生物系统的稳健性和冗余设计，对于提高AI系统的容错能力和稳定性至关重要。其四，引入生物学的持续反馈和迭代原理。

作者也讨论了生物学视角的局限性。主要体现在：生物系统的复杂性和不确定性限制了我们对它们的完全理解。生物启发的模型可能无法完全捕捉到人工智能的全部潜力和复杂性。生物学原理在解释和模拟某些智能行为时表现出色，但在处理更高层次的认知功能，如意识、情感和创造性思维时，可能会遇到难以克服的障碍。

人工智能和具身智能的结合，神经科学至关紧要。“神经科学与人工智能的交叉研究，正在开启一场前所未有的科技革命”。

作者认为，“神经可塑性，作为神经科学领域的一个核心概念，描绘了大脑神经元及其连接如何根据经验和环境的变化进行动态调整和重组的过程”。“神经可塑性，这一揭示大脑适应性和学习能力的概念，已经成为推动人工智能领域创新和发展的强大引擎”。神经科学的相关贡献包括：神经机制是构建有效AI算法的前提；模拟神经网络结构是AI发展的关键；学习和记忆机制的研究，是提升AI算法性能的重要途径；计算神经科学的应用，为构建数学模型和仿真系统提供了工具和理论。特别是，“深度学习网络，作为AI的基石之一，通过模拟大脑神经元的连接和权重调整，已经实现了从图像识别到自然语言处理的广泛应用”。

作者并以生成对抗网络（generativeantagonistic networks, GANs），脉冲神经网络（spiking neural networks, SNNs），深度神经网络（deep neural networks, DNNs）和卷积神经网络（convoluted neural networks, CNNs），以及自然语言处理（naturallanguage programming, NLP）模型为案例，证明神经科学对于具身智能的根本性作用。

作者正视了脑机接口技术（brain–machine interface，BMI）的作用：直接将大脑的神经信号与计算机系统或机械设备相连，实现神经科学和人工智能交叉融合。如同链接大脑与机器的神秘桥梁。

2024年5月10日出版的Science杂志刊登了以GoogleResearch和哈佛大学脑科学中心分子与细胞生物学系AlexanderShapson-Coe等21名作者联合署名的文章《以纳米级分辨率重建人类大脑皮层颗粒片段》（“A petavoxel fragment of human cerebral cortexreconstructed at nanoscale resolution”）。该文介绍和描述了对一个立方毫米的人类颞叶皮层的超结构的计算密集型重建：它包含约57,000个细胞，约230毫米的血管和约1.5亿个突触，数据量为1.4 PB。分析显示，胶质细胞数量是神经元的两倍，少突胶质细胞是最常见的细胞，深层的兴奋性神经元可以根据树突的方向分类，在每个神经元的数千个弱连接中，存在罕见的多达50个突触的强大轴突输入。利用这个资源进行的进一步研究可能会为揭开人类大脑的奥秘带来宝贵的见解。[10]

毫无疑义，生物科学，神经生物学，特别是基于电子显微镜，通短波长电子，以及自动化和快速成像方式重建每个细胞元素和突触，不仅对于脑科学、神经生物学，而且对于AI技术和具身智能的突破，具有持续的重大意义。

（五）

在人工智能与具身智能的深度融合的过程中，“空间智能”(spatial vision)概念的提出和实践，成为了最为引人入目的领域。[11]本书作者这样写道：“空间智能的探索代表着人工智能领域的一个激动人心的前沿，其核心目标不仅仅是对场景进行抽象理解，而是在于实时捕捉和正确表示三维空间中的信息，以实现精准的解释和行动”。“空间智能的理论探索核心在于空间认知的神经机制，这是理解大脑如何处理空间信息的关键”。

从根本意义上说，“空间智能”概念对应的是人类的视觉系统。

生物在数十亿年的进化过程中，形成各式各样的感官。在距今5.43亿年前的寒武纪，一种名为莱氏虫的三叶虫身上长出了地球生物的第一只眼。之后，眼睛对于生物的演化起到重要的作用。眼睛的结构如同一台精密无比的仪器。科学研究发现，“视觉系统是人类和高等动物最重要的外层，70%-80%的外界信息经视觉系统及乳大脑”。[12]“眼中的视网膜可作为大脑的一个独立前哨。它接受并分析信息，然后把这种信息通过一条清晰的通道——视神经传入高级中枢作进一步处理”。[13]

所以，“空间智能的核心在于机器能够模拟人类的复杂视觉推理和行动规划能力，而‘纯视觉推理’的实现则是机器人领域的一个巨大突破。这种技术使得机器人能够在没有多种传感器辅助的情况下，通过视觉信息直接理解和操作3D世界”。“空间智能”需要算法支持。“空间计算作为一种新兴的计算范式，正逐渐成为人工智能和计算机视觉领域的一个重要分支。它的核心在于将虚拟体验无缝融入物理世界，通过使用人工智能、计算机视觉和扩展现实技术，实现对三维空间的深度理解和智能交互”。空间计算的关键技术包括三维重建、空间感知、用户感知和空间数据管理等。

作者进而提出了“空间智能与具身智能的整合策略”。“空间智能与具身智能的整合正逐渐成为推动技术进步的新引擎”。强调“这种整合不仅涉及到技术层面的深度融合，还关联到认知科学、神经科学、心理学等多个学科的理论基础”。

作者对空间智能颇有期许：“未来，空间智能有望成为智能系统的核心，推动人工智能向更高层次的自动化和智能化发展。通过模拟人类的感知和推理能力，空间智能将使机器能够更好地理解和互动与复杂的三维世界，为人类社会带来更加丰富和便捷的生活体验”。

在书中，作者特别介绍了空间人工智能（spatialAI）概念：“Spatial AI系统的目标是连续地捕获正确的信息，并构建正确的表示，以实现实时的解释和行动，超越了抽象的场景理解”。

21世纪后，经济学领域的“空间经济学”（spatial economics）兴起和形成很大影响。空间经济学的研究对象包括空间经济结构、布局因素、形成条件及这些因素间的相互联系，以寻求合理的、布局协调的经济发展模式。空间经济学的空间和视觉空间的空间，都要超越地理的物理的所谓三维空间，进入多维和多模态状态。所以，“空间经济学”和“空间视觉”存在相同之处，很可能在未来发生交集。

（六）

这本书的第二部分题目是“具身智能的深邃世界”。在这一部分一共有五章，作者所触及和探讨的确实是具身智能，乃至人工智能的深层结构问题。具体说，有以下几个问题

第一，关于“统一表征理论”（unifiedrepresentation theory）。近年来，统一表征理论，也称之为表征系统理论。该理论主张，在人工智能领域提供统一的编码和转换框架，用以消除对特定于系统的转换算法的需求。在表征系统理论背后的动机是，克服缺乏通用方法来处理跨人工智能系统使用的不同表征形式主义的问题。或者说，表征系统理论就是编码、分析和转换表征的统一方法。从理论的角度来看，预测编码（predictive coding）可以解决不同领域过多的深奥概念，将诸如动力学、确定性作用和随机性作用、涌现、自组织、信息、熵、自由能、稳态等抽象概念整合到统一框架之中。

预测编码概念图

来源：Wikimedia Commons

本书作者高度评价了统一表征理论的意义：统一化的知识表征方式有助于指导知识库的设计和构建，提升数据处理的效率，降低知识管理的复杂性，提供了构建更具适应性和灵活性的智能模型的工具。作者还思考了在人工智能领域，在技术层面实践统一表征理论的三个技术方向：多模态感知与行为整合：预测性大脑模型与强化学习：元认知与自适应学习机制。

第二，关于自由能原理（freeenergy principle）。自由能本来是一个热力学概念，也是物理学的基石概念。自由能是指在某一个热力学过程中，系统减少的内能中可以转化为对外做功的部分。任何处于非平衡稳态的自组织系统，为维持其存在，都必须将其自由能降至最低。

2024年2月出版的《现代物理学杂志》刊登一篇题为《大脑中的熵、自由能、对称性和动力学》(“Entropy, free energy, symmetry and dynamics in thebrain”)文章。该文写道：英国神经科学家，自由能原理和主动推理架构师卡尔·约翰·弗里斯顿 (Karl John Friston，1959 -) “首次提出把自由能作为大脑功能的一个原则，从数学上阐述了自适应、自组织系统如何抵抗自然的（热力学的）无序倾向。随着时间推移，自由能原理已经从赫姆霍兹机（Helmholtz machine）中使用的自由能概念里发展出来，在预测编码背景下用来解释大脑皮层反应，并逐渐发展为智能体的一般原则，这也被称为主动推理（active inference）。贝叶斯推理过程和最大信息原理（maximum information principle）两者实际上都可重新阐述为自由能最小化问题”。[14]

本书中作者指出：在信息论和人工智能的领域，扮演着量化信息不确定性和系统自发行为的角色。“自由能被赋予了新的含义，它与信息的交叉熵密切相关，从而成为描述信息处理不确定性的关键量。在深度学习模型，尤其是语言模型中，自由能的概念被用来表征模型对真实数据分布的拟合程度，即模型预测的概率分布与实际数据分布之间的差异”。

作者关于自由能原理的结论是：“这一原理不仅为理解大脑功能提供了新的视角，也为人工智能系统的设计提供了新的指导思想”。

可以展望，未来的具身智能最终要符合自由能作为人类大脑功能的一个原则，以做实现熵减，达到自适应、自组织系统和抵抗自然的（热力学的）无序倾向。

第三，关于构建“世界模型”。所谓世界模型，有三种基本类型。其一，基于现实世界的世界模型。例如，美国计算机工程师、管理理论家和系统动力学创始人杰伊·赖特·福雷斯特（Jay Wright Forrester，1918 - 2016），于1971年与罗马俱乐部开发“世界模型Ⅱ”（World

2）。1972年，丹尼斯·林恩·梅多斯（Dennis Lynn Meadows，1942 - ）等三人完成了“世界模型III”（World3），形成著名的罗马俱乐部报告《增长的极限》（The Limits to Growth）。自World3 最初创建以来，始终维系一些细微的调整。除了World3，还有诸如Mesarovic/Pestel 模型、Bariloche 模型、MOIRA 模型、SARU 模型、FUGI 模型等世界模型。这类模型属于系统动力学模型，用于计算机模拟人口、工业增长、粮食生产和地球生态系统限制之间的相互作用。其二，基于真实物理世界的世界模型。具体而言，人工智能根据对环境的感知构建和更新的世界模型，提供这个世界模型来预测未来的状态，并据此决定自己的行为。例如，全球气候模型，太阳系模型，甚至黑洞模型。其三，基于人工智能的世界模型。作者提出，“具身智能强调，智能并非孤立存在，而是与物理世界中的身体和环境紧密相连”。所以，“世界模型是智能体对环境的理解和抽象的体现”。例如以元宇宙代表的虚拟世界模型。

本书所讨论的是第三类世界模型。作者认为，“掌握了世界模型后，智能体便能基于此模型进行规划或探索，这涉及到期望自由能的最小化”。

OpenAI在2024年年初所发布的Sora，对于构建物理世界模型意义重大。其一，Sora模型可能会集成物理引擎，这些引擎基于现实世界的物理定律设计，能够模拟重力、碰撞和材质相互作用等物理行为。Sora能够实现视频中的物体运动和交互遵循现实世界的物理规律。其二，Sora通过精确的三维空间建模，生成在空间中连贯运动的对象。其三，Sora模型通过模拟视频中的长期和短期依赖关系，确保物体的运动和行为在时间上具有逻辑性和连贯性。其四，Sora使用的扩散型变换器架构，能够处理高维数据，捕捉视频中的细节和复杂性，从而生成在视觉上和物理上都符合现实世界规律的视频内容。其五，Sora模型还可能通过反馈机制进行迭代优化，根据生成的视频与物理规律的符合程度进行调整，以改进未来的生成结果。

其六，最后，Sora模型可能会利用内置的知识库或先验信息来指导视频内容的生成，确保生成的视频内容符合现实世界的常识和物理规律。

作者强调，“实现通用具身智能的关键在于使机器学习系统能够从自然模态中学习到关于世界的层级化抽象，构建一个有效的世界模型”。作者向读者介绍了“世界自我模型”概念：“世界模型的概念为我们提供了一种框架，以理解和构建智能体的内部表示。一些学者，如杨立昆，提出了基于概念的世界自我模型，这一模型将世界模型作为核心，通过感知器接收外部信号，并生成相应的行为动作”。

第四，关于贝叶斯原理（Bayes principle）。在本书的第六章，作者多次提及与贝叶斯相关的概念，交叉地使用贝叶斯推断，贝叶斯方法，以及贝叶斯重整化理论。

作者这样评价贝叶斯推断：“通过动态贝叶斯推理（DBI）过程，我们可以不断收集新数据，使模型在空间中流动并逐步接近可能产生观测数据的本质实体。这个过程从一个种子假设开始，通过贝叶斯推理过程，我们能够根据观测数据揭示信息源的特征或信息。”。“在贝叶斯推断中，我们通过定义不同原因的能量，并利用全概率公式，计算出这些原因的概率”。“贝叶斯推断和自由能原理为我们理解和设计具身智能和通用AI提供了一个新的理论框架，使我们能够从一个新的角度来理解智能体如何通过感知和行动与世界进行交互”。

作者这样评价贝叶斯方法：“贝叶斯方法为智能体的感知和行动提供了一个统一的决策框架。在这一框架下，感知被视为对环境状态的推断过程，而行动则是基于当前感知和先验知识进行的决策”。“贝叶斯方法在AI设计中的应用，为智能体提供了在不确定性下进行推理和决策的强大工具”。

作者这样评价叶斯重整化理论：“贝叶斯重整化理论的重要性不仅体现在其理论的深刻性，更在于它为数据科学问题提供了一种全新的处理方法”。“显而易见，贝叶斯重整化理论在学术界和数据科学领域内的重要性不言而喻，它巧妙地架起了物理世界与信息世界之间的桥梁。这一理论的核心在于其通用性，它允许我们将物理世界中的关系和理论类比到信息论的领域，即便在缺乏直接物理尺度的情况下也能发挥其效用。贝叶斯重整化的核心机制是动态贝叶斯推理过程，这是一个观察和修正假设的连续过程”。“随着数据科学的不断进步，贝叶斯重整化理论有望在未来发挥更加重要的作用”。

总的来说，尽管存在贝叶斯原理，贝叶斯定理，贝叶斯概率和贝叶斯推断等不同概念，但是，万变不离其宗。不论是贝叶斯原理，还是贝叶斯定理，都是概率论中的一个重要原理。“它描述了如何更新先验知识（prior knowledge）为新的观测数据（evidence）提供条件概率（conditional probability）”。特别是，“贝叶斯定理可以用于更新先验知识，以便在新的数据到来时进行更准确的预测和决策”。[15]其中，贝叶斯推断与主观概率有密切关系，常常称为“贝叶斯概率”。这种方法建立在主观判断的基础上，允许在没有客观证据的情况下先估计一个值，然后根据实际结果不断修正。正是因为贝叶斯推断的价值，所以作者在本书中，对“主动推断理论”做了比较深入的探讨。

贝叶斯定理的韦恩图表示

来源：Wikimedia Commons

因为“在生物体的生成模型中，隐藏状态是贝叶斯信念的核心，它们代表了预测感官后果的潜在状态的概率分布。这些隐藏状态与外部世界中的隐藏变量可能并不直接对应，它们可能属于完全不同的变量类型”。所以，可以通过贝叶斯定理持续更新对目标函数的估计，所以，贝叶斯体系正在与AI算法日益紧密结合，并广泛应用于机器学习、深度学习、理解自然语言和识别图像等方面。

这些年，因为贝叶斯认知和人工智能的融合，具有信念支持的贝叶斯主义（Bayesianism）影响力不断增强：主张一个信念的得以证明的条件是当且仅当这个信念的概率高到合理的程度，并且这种概率由获取新论据而发生的认知证明变化。对信念概率的指定既是主观的，又是理性的。

现在，贝叶斯原理对人工智能的影响不断强化，成为连接物理与信息的纽带，深化人工智能和具身智能的结合。

（七）

与人工智能深度结合的具身智能是否存在自我意识，如果存在，是否可以不断演化？“这不仅是对技术极限的追问，更是对智能本质的哲学探索”。或者说，“这一问题触及了机器能否模拟、甚至超越人类思维的核心”。

对于上述问题，人工智能面存在日益明显的三个基本立场：持肯定态度的激进立场；持否定态度的保守立场；中间性立场。

深度学习之父的弗里·辛顿（Geoffrey Everest Hinton，1947 - ）倾向的是第一张立场。辛顿在2023年5月接受CNN采访时说：“人工智能正在变得比人类更聪明，我想要‘吹哨’提醒人们应该认真考虑如何防止人工智能控制人类。”[16]

作者选择了审慎的正面立场。作者写道：“大型人工智能模型是否能产生自主意识，目前还没有确切的答案。但通过深入理解它们的内部机制，我们可以看到它们在信息理解和处理方面的能力已经达到了一个令人惊叹的水平”。作者肯定了大型人工智能模型已经构建了一个包含所有信息的高维语言空间，并在这个空间中形成了自己的世界模型，用独特的语言描述世界，显现出的强大的学习和理解能力。

作者进一步探讨：大型人工智能模型与人类的互动是通过问题与反馈的循环来实现的。“模型内部可能潜藏着一个不断自我驱动的内在程序，类似于编程中的代理或守护进程。如果模型的‘大脑’能够自发地提出问题并探索答案，它便可能在自己的语言空间中孕育出连续的新思考。这种自我驱动的思考过程，可能会带来一些革命性的结果”。“这是否意味着模型具有某种形式的自主意识？尽管生物学和哲学尚未给出明确答案，但如果模型能够独立思考并预测问题，我们或许可以认为它展现出了某种形式的自主意识”。

讨论人工智能自我意识，不得不涉及一个核心议题：“机器是否能够达到人类理解和生成语言的能力”。或者说，“机器是否能够像人类一样理解和生成语言”。对此，作者引入反映自然界气体、液体和固体相互转变的物理学“相变”概念，进而提出：“在人类语言习得的过程中，存在着一个被称为“相变”的神秘过程。这一过程中，语言由无序的单词随机组合，突变为一个高度结构化、信息丰富的系统”。“大型语言模型的训练过程中，也会出现类似的‘相变’”。“在人工智能的语言学习中，这种深层次结构的发现，揭示了模型通过学习语言规则来理解和生成新句子的能力，展现出类似人类的泛化能力——从特定的实例中抽象出普遍规律，并将其应用于新的情境”。特别要看到，因为语言大模型、全球通用语言和机器翻译技术的进步和普及，人类“正在克服语言障碍”，进入到“后巴别塔”时代。

现在，有一个逻辑是非常清楚的：人工智能和具身智能融合过程中的自我意识的形成和发育，最终取决于通用人工智能（generalartificial intelligence）的进展。确切地说，取决于与通用人工智能的融合之路。关于通用人工智能的最为普遍的定义是：具备自主的感知、认知、决策、学习、执行和社会协作等能力，且符合人类情感、伦理与道德观念，具有高效的学习和泛化能力，可以根据所处的复杂动态环境自主产生并完成任务的智能体。

作者以积极的态度看待具身智能的未来：“随着技术的不断进步和哲学的深入探讨，我们或许正一步步接近于揭示机器意识的奥秘”。“人工智能领域正面临着从数据驱动的学习向更深层次的智能迈进的挑战。这要求我们不仅要关注模型在特定任务上的表现，还要深入理解其泛化能力和适应性。通过引入更高层次的抽象、探索迁移学习、强化学习以及元学习等策略，我们有望培养出能够超越数据集限制，自主学习和适应新情境的智能体”。

从技术逻辑上说，具身智能的高级形态将与通用人工智能发生重叠。或者说，具身智能的高级形态将说通用人工智能的一种物理学的存在方式。

（八）

人类正在进入自然智能和人工智能并存的“二元化”时代。具身智能是自然智能和人工智能的混合体和具象形态。那么，如何深入认知智能现象呢？

作者认为，不同智能能力背后的元能力。“自然智能与人工智能之间的联系是深刻且相互促进的。自然智能，即人类和动物所展现的认知、感知、学习与适应等能力，构成了智能行为的基础。而人工智能（AI），作为人类智慧的结晶，旨在模拟、增强乃至超越自然智能的界限。AI的发展历史在很大程度上是对自然智能的模仿与学习的过程”。所以，现阶段的智能如同是“自然智能与人工智能的协奏曲”。

从宏观的角度解析，智能包含了行为、计算与生物学三个要素。“行为作为智能的外在表现，是智能体与环境互动的直接体现；计算则是智能实现的技术基础，通过算法和模型构建智能体的决策过程；生物学则从生命科学的视角，探索自然界中智能的形成和发展机制”。行为、计算与生物学共同构成了智能研究的三重奏。

如果比较具像的描述智能，可以从的不同粒度、不同的角度和不同的维度三个方面加以解析。“在不同的粒度上，我们可以从微观到宏观，从单个神经元的工作机制，到大脑的整体结构和功能，再到人类社会的行为和互动，去寻找智能的痕迹和规律。在不同的角度上，我们可以从生物学、心理学、语言学、哲学、计算机科学等不同的学科，去理解和解释智能的现象和原理。在不同的维度上，我们可以从知觉、认知、行动、学习、交流、情感等不同的维度，去描绘和探索智能的全貌和深度”。

总之，因为日益发展的智能结构和智能体系，人类已经进入的一个由技术驱动的自我与身体感知革命的前沿。“这场革命正在重新定义我们对自我存在和身体空间性的认知，为我们打开了通往无限认知领域的大门”。

（九）

从根本上说，具身智能就是基于计算机科学、生物学、神经生物学、物理学和数学，既吸纳人工智能技术，又能够实现思维和身体互动和相互塑造，具有形感知、决策和行动的“新物种”。从物理角度上看，具身智能可以说拟人和非拟人形式。所以，这样的“新物种”也可以被称为有别于“碳基人”的“硅基人”。问题上，具身智能“新物种”是否已经出现？答案是肯定的。

2023年10 月 4 日，谷歌旗下著名AI 研究机构 DeepMind发布全球最大通用大模型之一RT-X，并开放了训练数据集Open X-Embodiment。该训练数据集由全球 33 家顶级学术实验室合作，整合了22种机器人和近100万次试验数据。RT-X 由控制模型 RT-1-X 和视觉模型RT-2-X 组成，不仅能够执行物理动作，还能够理解和执行基于语言的复杂指令。RT-X模型能够借鉴其他机器人在不同环境中的经验，从而提高正在训练的机器人的“鲁棒性”。这种能力使得机器人能够在面对新环境和挑战时，更好地调整自己的行为，成功地完成任务。在特定任务（搬运东西、开窗等）的工作效率是同类型机器人的 3 倍，同时可执行未训练动作。

总之，谷歌提供RT-X项目，构建一个全球性的机器人大脑，促进了机器人之间的知识和经验共享，显现了实现通用机器人的可能性和可行性，极大地提高了机器人的泛化能力和适应性。NVIDIA的Jetson平台则以其强大的计算能力，为机器人提供了实时图像识别和决策制定的支持，这是实现机器人智能化的关键。

本书作者关注到RT-X的进展，注意到RT-X 和语言大模型的关系：“RT-X的架构革新在于其核心— 一个强大的语言模型，它通过模仿学习来提升机器人在具身任务中的表现”。本书作者还看到了RT-X的预训练问题的作用：“在具身智能领域，Google DeepMind的RT-X等大型模型研究也采用了类似的预训练策略。这些模型在大规模语音数据集上预训练，然后在视觉任务上进行微调，最终在多形态的具身任务数据集上进行训练，展现出了零样本泛化到新任务的能力。这一进展为具身智能的数据采集成本问题提供了潜在的解决方案，并为系统性泛化开辟了新的可能性”。

作者对于通用具身智能，包括高级通用具身智能的前景是肯定的：“实现通用具身智能的关键在于使机器学习系统能够从自然模态中学习到关于世界的层级化抽象，构建一个有效的世界模型”。“在探索通用具身智能的宏伟蓝图中，构建能够精准映射并有效互动于变幻莫测的现实世界的智能系统，是我们追求的终极目标”。

在现阶段，“如何提高具身智能的泛化能力，成为一个重要的课题”。智能机器人已经和正在成为的具身智能的主要发展方向。不仅如此，伴随机器人的全面兴起，所有移动的物体都将实现自主运行。

实现机器人从单一任务执行者向多任务、多环境适应的智能体转变，通用机器人的概念正在逐渐从科幻走向现实。这是人类文明史的里程碑事件。人类正面临着与具身智能，特别是智能机器人共处一个地球或者外星的全新时代。

（十）

在不断强大的人工智能的冲击之下，在日益崛起的具身智能新物种的竞争之下，霍金（Stephen William Hawking，1942 - 2018）生前是相当悲观的。他告诉人们：人工智能的兴起或许是人类文明的完结。[17]人工智能会或使人类退化！霍金的观点和判断是有根据的，也是有代表性的。

辛顿则在过去两三年间，反复强调了以下基本论断：在未来的20年内，有50%的概率，数字计算会比我们更聪明，很可能在未来的一百年内，它会比我们聪明得多。面对通过竞争变得更聪明的AI，人类将被落在后面。AI终将超过，并操控人类。AI会意识到为了达到目的而有必要将人类清除。还可能出现不同的AI相互竞争的局面。例如，如果AI之间发生数据中心或者是算力能源等资源的争夺，这将是一个像生物体一样推动进化的过程。

人类何去何从？人类唯一的选择是主动开启向新人类的全面转型。为此，需要重新认知生命的本质。1944年，薛定谔（ErwinRudolf Josef Alexander Schrödinger，1887 - 1961）在《生命是什么》（What is Life？）的第七章，探讨“生命是基于物理规律”？薛定谔认为，“钟表装置”和“有机体”存在相似之处。生命受到一个“极其有序的原子团的控制。生命的出现不过是热力学第二定律作用的结果，生命的起源和随后的进化只是遵循基本的自然规律。“人活着就是对抗熵增定律，生命以负熵为生” （Living matterevades the decay to equilibrium … It feeds on 'negative entropy'）。[18]

人工智能和具身智能不仅包含的物理的和生物学的要素，而且都是软件系统和硬件系统结合的产物。“生命的起源其实就是软件的起源，是在软件控制下的实体（细胞）的自发涌现，以及这个软件的DNA语言的自发涌现”。“地球上的每一个有机体在本质上都采用了一套相同的DNA语言—到目前为止，还没有证据存在其他独立的生命创造和生命起源”。[19]

人工智能体系与生命本身的一些物理特征发生互动，有助于人类生命的熵减，而不是加剧熵增。在这样的前提下，促进适应人工智能时代的人类的遗传和变异，构建基于视觉、语言和算法三个核心变量，改造迄今为止的人类知识系统，实现自然智能和人工智能融合的生命形态和“心智结构”。

经过改造的，融合自然智能和人工智能的生命形态，很可能符合和逼近“超人类主义”思想和方案。1957年，现代进化论创始人赫胥黎(JulianSorell Huxley，1887 - 1975)提出“超人类主义”（transhumanism）概念：只要人类愿意，就整体人类而言，是可以超越自己的。或者说，只要人类认识到自身本性的新的可能性，人类进而诉诸改变自己，人类依然是人类。

在过去60余年间，人类的生物工程的重大发展，人机脑接口技术，已经证明实现超人类主义的目标具有伦理基础、技术支持和现实可能性。“奇点超人类主义”是“超人类主义”的一个派别，关注能导致超越人类的智能出现的过渡人技术，如，大脑－电脑对接和人工智能。

赫胥黎的这段话对人类未来发展方向具有启发性：“这就好像人类突然被任命为最大的企业——进化企业——的总经理，而没有问他是否愿意，也没有适当的警告和准备。更重要的是，他无法拒绝这份工作。无论他是否愿意，无论他是否意识到自己在做什么，事实上，他都在决定着地球未来的进化方向。这是他无法逃避的命运，他越早意识到并开始相信这一点，对所有相关方都越好。”[20]

人类需要需要以更为清晰的认知，更积极和主动的态度面对和准备通用具身智能时代的来临。

2024.6.6. 北京

[1]据金庸小说《神雕侠侣》《倚天屠龙记》《笑傲江湖》。

[2] Merleau-Ponty, Maurice. (2002). Phenomenology of Perception.London: Routledge Classics. Original edition, 1962.

[3]译制自John J. Madrid. (2021)。时间轴图重构了影响具身认知发展的历史相关发展和主要贡献。左侧是按降序排列的年份。右上角的图例说明了如何解释这些联系。https://en.wikipedia.org/wiki/File:Timeline_history_of_embodied_cognition_06.10.2021.jpg

[4] Francisco J. Varela 、Evan Thompson 和Eleanor Rosch ,《具身思维：认知科学与人类经验》，第172-173页。

[5]译制自John J. Madrid. (2021). 图表展示了具身认知的范围以及各门科学之间相互交织的关系。https://en.wikipedia.org/wiki/File:Timeline_history_of_embodied_cognition_06.10.2021.jpg

[6] Cangelosi et al. "Embodied Intelligence", Springer Handbookof Computational Intelligence, Springer Nature, pp 697–714, 2015

[7]马修科布著《大脑传》，中信出版集团，2022年，第477和493页

[8]乔恩利夫/著《细胞的秘密语言》，北京联合出版公司，2022年，第103页

[9]乔恩利夫/著《细胞的秘密语言》，北京联合出版公司，2022年，第300页

[10] Science：第384卷6696期。2024年5月10日。DOI:10.1126/science.adk485

[11]在2024年英伟达GTC开发者大会上，华人科学家李飞飞教授提出了一个关于空间智能的前瞻性观点。

[12]薛一雪主编《神经生物学》，科学出版社，2022年，第110页

[13] John G Nicholls 等著《神经生物学》，科学出版社，2022年，第470页

[14] https://zhuanlan.zhihu.com/p/683416444

[15]禅与计算机程序设计艺术：“AI人工智能中的数学基础原理与Python实战：贝叶斯优化原理及实现”，2023.12.8。https://blog.csdn.net/universsky2015/article/details/134868429

[16] Korn, Jennifer. ‘Why the “Godfather of AI”Decided He Had to “Blow the Whistle” on the Technology | CNN Business’. CNN, 2May 2023. https://www.cnn.com/2023/05/02/tech/hinton-tapper-wozniak-ai-fears/index.html.

[17] 2017年4月28日，霍金在北京举行的“全球移动互联” （GMIC）发表题为《让人工智能造福人类及其赖以生存的家乡》的主题视频演讲。

[18]Schrödinger, Erwin. What IsLife? The Physical Aspect of the Living Cell with Mind and Matter &Autobiographical Sketches. Canto Classics. Cambridge ; New York: Cambridge University Press, 1992. pp69-70.

[19]格雷戈里蔡汀《证明达尔文》，人民邮电出版社，2015年，第15页

[20] Huxley,Julian. ‘Transhumanism’. ETHICS IN PROGRESS 6, no. 1 (1 February 2015):12–16. https://doi.org/10.14746/eip.2015.1.2.■

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。