真•AI创世“精灵”！谷歌交互世界模型重磅发布铺开AGI康庄大道？_新浪财经

《科创板日报》2月27日讯（编辑郑远方）谷歌出品，可以交互的AI基础世界模型，真的来了。

日前，谷歌研究人员发布了110亿参数的全新AI模型，仅用一张图片，便可生成一个交互式世界，生成的世界“动作可控”，用户可以其中逐帧行动。

谷歌将该模型定义为“生成式AI的一种新模式”，并命名为Genie（全称generative interactive environments，生成式交互环境，Genie一词中文意为“精灵”）。

谷歌宣称，Genie开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂。

英伟达高级研究科学家、通用具身智能体（Embodied Agent）研究小组负责人Jim Fan也“发来贺信”称，“Sora很好，但是Genie将会是具身智能体的主干之作”，“与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。20024年也将是基础世界模型之年。”

▌Genie“神”在哪里？

作为一个基础世界模型，Genie的数据集主要是大量公开的互联网视频，其中重点是2D游戏与机器人视频。

不过谷歌也强调，“我们的方法是通用的，适用于任何类型领域，且可以扩展到更大的互联网数据集。”

不仅如此，Genie是在没有任何动作标注的情况下进行的训练——这是训练中的一大挑战，也是Genie的亮点与独特之处。

一般来说，网上视频不会有任何标注，标注正在执行什么动作、应控制图像哪一部分。Genie在这种情况下“自学成才”，可以专门从网上视频中学习控制细粒度：它不仅可以了解观察到哪些部分是可控的，还能推断出在生成环境中的潜在动作，这种潜在动作甚至还可以转移到真实的人类设计的环境中。

正如前文说到的，Genie只需要一张图，一张它从未见过的图，就能创建一个全新的交互环境。这里说的“一张图”，可以是任意类型的图：AI生成的图、人类画的设计草图、真实世界照片……

值得一提的是，Genie还有望用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型，证明Genie 能够学习一致的动作空间，可以帮助训练机器人。

谷歌指出，Genie有助于实现“通用AI Agent”——此前研究表明，对于AI Agent开发而言，游戏环境是有效测试平台，但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界，让AI Agent不断接受训练。

总而言之，一句“芝麻开门”，《一千零一夜》中的阿里巴巴打开了宝藏大门；指尖轻轻一擦，召唤出神灯精灵的阿拉丁走上了人生巅峰。

如今，AI行业也有了自己的“精灵”，一句话，或是一张图，通向通用人工智能世界的大道，正在徐徐铺开。

海量资讯、精准解读，尽在新浪财经APP

VIP课程推荐

加载中...

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）