真•AI创世“精灵”!谷歌交互世界模型重磅发布 铺开AGI康庄大道?

真•AI创世“精灵”!谷歌交互世界模型重磅发布 铺开AGI康庄大道?
2024年02月27日 16:48 财联社

《科创板日报》2月27日讯(编辑 郑远方)谷歌出品,可以交互的AI基础世界模型,真的来了。

日前,谷歌研究人员发布了110亿参数的全新AI模型,仅用一张图片,便可生成一个交互式世界,生成的世界“动作可控”,用户可以其中逐帧行动。

谷歌将该模型定义为“生成式AI的一种新模式”,并命名为Genie(全称generative interactive environments,生成式交互环境,Genie一词中文意为“精灵”)

谷歌宣称,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂

英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也“发来贺信”称,“Sora很好,但是Genie将会是具身智能体的主干之作”,“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。20024年也将是基础世界模型之年。”

▌Genie“神”在哪里?

作为一个基础世界模型,Genie的数据集主要是大量公开的互联网视频,其中重点是2D游戏与机器人视频

不过谷歌也强调,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集。

不仅如此,Genie是在没有任何动作标注的情况下进行的训练——这是训练中的一大挑战,也是Genie的亮点与独特之处。

一般来说,网上视频不会有任何标注,标注正在执行什么动作、应控制图像哪一部分。Genie在这种情况下“自学成才”,可以专门从网上视频中学习控制细粒度:它不仅可以了解观察到哪些部分是可控的,还能推断出在生成环境中的潜在动作,这种潜在动作甚至还可以转移到真实的人类设计的环境中

正如前文说到的,Genie只需要一张图,一张它从未见过的图,就能创建一个全新的交互环境。这里说的“一张图”,可以是任意类型的图:AI生成的图、人类画的设计草图、真实世界照片……

值得一提的是,Genie还有望用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型,证明Genie 能够学习一致的动作空间,可以帮助训练机器人。

谷歌指出,Genie有助于实现“通用AI Agent”——此前研究表明,对于AI Agent开发而言,游戏环境是有效测试平台,但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界,让AI Agent不断接受训练。

总而言之,一句“芝麻开门”,《一千零一夜》中的阿里巴巴打开了宝藏大门;指尖轻轻一擦,召唤出神灯精灵的阿拉丁走上了人生巅峰。

如今,AI行业也有了自己的“精灵”,一句话,或是一张图,通向通用人工智能世界的大道,正在徐徐铺开。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 03-04 美新科技 301588 --
  • 03-04 中创股份 688695 --
  • 02-28 铁拓机械 873706 6.69
  • 02-21 龙旗科技 603341 26
  • 02-08 肯特股份 301591 19.43
  • 新浪首页 语音播报 相关新闻 返回顶部