移动客户端

新浪科技> 滚动新闻 > 正文

Waymo利用谷歌Gemini大语言模型，开发端到端自动驾驶模型

Waymo利用谷歌Gemini大语言模型，开发端到端自动驾驶模型

2024年10月31日 15:34 砍柴网

新浪财经APP 缩小字体放大字体收藏微博微信

10 月 31 日消息，自动驾驶公司 Waymo 长期以来一直将与谷歌 DeepMind 的联系及其数十年的 AI 研究视为其在自动驾驶领域超越竞争对手的战略优势。现在这家 Alphabet 旗下的公司更进一步，为其机器人出租车开发一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型。

Waymo 今天发布了一篇新的研究论文，介绍了一种名为“端到端多模态自动驾驶模型”（EMMA）的新模型。这种新的端到端训练模型能够处理传感器数据，生成“自动驾驶车辆的未来轨迹”，帮助 Waymo 的无人驾驶车辆做出关于去哪里以及如何避开障碍物的决策。

但更重要的是，这是首次有迹象表明，自动驾驶领域的领导者计划将 MLLM 应用于其业务。这意味着 MLLM 可能不仅仅局限于聊天机器人、电子邮件组织者和图像生成器等领域，而是可以扩展到自动驾驶领域。

在研究中 Waymo 提出，传统的自动驾驶系统通常会为感知、映射、预测和规划等各种功能开发特定的“模块”。虽然这种方法在过去多年中效果显著，但也存在可扩展性问题，主要是由于模块间的误差积累和通信有限。此外，这些模块由于是“预定义”的，因此面对“新环境”时适应能力较差。

Waymo 认为，像 Gemini 这样的 MLLM 可以解决这些问题。首先，这些模型是经过大量互联网数据训练的“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑步骤，模仿人类的思维方式。

Waymo 表示，EMMA 模型在帮助机器人出租车应对复杂环境方面表现良好。例如，当遇到各种动物或道路施工时，EMMA 能够帮助无人驾驶汽车找到合适的行驶路线。

IT之家注意到，特斯拉等其他公司也在大力开发其自动驾驶汽车的端到端模型。特斯拉首席执行官埃隆・马斯克声称，最新版本的 FSD 12.5.5 采用了“端到端神经网络”人工智能系统，将摄像头图像转换为驾驶决策。

这表明，在部署真正的无人驾驶车辆方面领先于特斯拉的 Waymo 也对追求端到端系统感兴趣。该公司表示，其 EMMA 模型在轨迹预测、物体检测和道路图理解方面表现出色。

但 EMMA 也有其局限性，Waymo 承认，在将该模型投入实践之前，还需要进行未来的研究。例如，EMMA 无法整合来自激光雷达或雷达的 3D 传感器输入，Waymo 表示这是因为“计算开销太高”，并且一次只能处理少量图像帧。

研究论文中未提及的另一个风险是，像 Gemini 这样的 MLLM 会存在“幻觉”，而无人驾驶汽车的容错率非常有限。因此，在这些模型能够大规模部署之前，还需要进行更多研究。

【来源：IT之家】

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部