刚刚,OpenAI发布首个AI智能体!自动帮你订餐购物,直播翻车,使用前需要知道这些细节

刚刚,OpenAI发布首个AI智能体!自动帮你订餐购物,直播翻车,使用前需要知道这些细节
2025年01月24日 05:01 爱范儿

今天凌晨,OpenAI CEO Sam Altman 宣布了两个重磅消息。

一个是 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。

另一个则是备受期待的首个智能体产品——Operator 研究预览版正式亮相。好消息是,它能帮你自动网购了,但坏消息是,它可能比较容易「翻车」。

OpenAI 总裁 Greg Brockman 在 X 平台发文称:「Operator–一种能够使用自己的浏览器为你执行任务的智能体。2025 年将是智能体之年。」

OpenAI 让 AI 学会「用电脑」了?这是迈向 AGI 的第一步

作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。

用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。

这项功能将率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。

API 预计将在数周内推出。

用户可通过 operator.chatgpt.com 访问该服务,OpenAI 计划后续将其整合到 ChatGPT,不过,ChatGPT 在今天凌晨又双叒叕崩了。

简单来说,当用户启用 Operator 时,系统会弹出一个小窗口,展示专用 Web 浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。

技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。

它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。

OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

Instacart 首席产品官 Daniel Danker 就指出「OpenAI 的 Operator 是一项技术突破,它使订购杂货等流程变得异常简单。」

按照惯例,OpenAI 也同期召开了一场发布会。Sam Altman 与 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介绍和演示 Operator。

演示涵盖了多个实际应用场景,比如通过 OpenTable 为 Beretta 餐厅预订双人座位,原定 7 点档位不可用后改订 7:45。

使用 Instacart 购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片,并中途接管添加更多鸡蛋等商品。

在 StubHub 上试图搜索并选购预算 500 美元以下的勇士队比赛门票;预约清洁服务;以及计划通过 DoorDash 点餐,订购烧烤披萨等。

理想很美好,现实很骨感,Operator 目前最大的问题还是不够稳定。刚开始演示时还算顺利,但中后期的演示过程中遭遇连环「翻车」,甚至未能成功加载相关网页。

或许是为了确保演示成功,眼瞅着演示人员输入的提示词是越来越长。

X 平台大 V @rowancheung 也提前体验并分享了对 Operator 的观察。

比方说 Operator 虽然在 ChatGPT 中运行,但功能完全不同,主要专注于网页操作(点击、滚动、输入)而非生成长文本。目前系统仍存在限制,包括部分网站会屏蔽 AI 访问,合作伙伴集成有限。

他指出 Operator 需要特定的使用方法来优化效果,就像 GPT-4 适合 CoT 提示一样,但目前对 Operator 的最佳使用方式研究还很初步。

不过,他还是挺看好这项技术能帮助人们自动化处理枯燥工作,从而将时间用于更有价值的事务。

此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。

因此,确保 Operator 的安全使用是首要任务。

根据官方博客,OpenAI 主要是通过多层保护措施防止滥用并确保用户牢牢控制 Operator。

  • 接管模式:Operator 在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。在接管模式下,运营商不会收集或截图用户输入的信息。
  • 用户确认:在完成任何重大操作(例如提交订单或发送电子邮件)之前,Operator 应请求批准。
  • 任务限制:Operator 经过培训可以拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如对工作申请做出决定。
  • 监视模式:在特别敏感的网站上,例如电子邮件或金融服务,Operator 需要对其行为进行密切监督,以便用户能够直接发现任何潜在的错误。

此外,OpenAI 针对 Operator 实施了全面的隐私和安全保护措施。在隐私管理方面,用户可以选择退出模型训练,一键删除浏览数据和历史对话,并注销所有网站。

为防范恶意网站的攻击,系统建立了多层防御机制,包括检测并忽略提示注入、监控可疑行为和建立威胁识别管道。同时,Operator 设有审核系统来拒绝有害请求和不当内容,对违规行为发出警告或撤销访问权限。

「体验报告」公布,Operator 背后的 CUA 技术有多强?

Computer-Using Agent (CUA)是支撑 Operator 的核心技术,它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。

CUA 通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。

据悉,其创新之处在于采用通用界面方法,让 AI 能像人类般操作各类软件工具,突破了传统 AI 难以应对的众多细分应用场景。

不过 OpenAI 坦言 CUA 还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。

OpenAI 在 Operator 中部署的 CUA 系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色,如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到 10/10。

在电商网站搜索商品时也保持 9/10 的高成功率。但在处理复杂的房产搜索等任务时,成功率降至 3/10。

测试还发现提示词的质量会显著影响任务成功率,例如场地预订任务中,添加具体时间和操作指引后,成功率从 3/10 提升至 8/10。

系统在处理不熟悉的 UI 界面和文本编辑时表现欠佳,常出现试错和低效操作,文本编辑任务的成功率仅为 4/10。

为了更好地量化 Operator 的性能指标,发布会上的演示人员也提到了 OS World 测试和 Web Arena 测试。

OS World 用于评估 AI 智能体在 Linux 等操作系统上的导航能力, Operator 得分 38.1%,高于其他公开系统但低于人类水平(72.4%)。

Web Arena 则是测试评估 AI 智能体在电商网站和社交论坛等网站的导航能力, Operator 得分 58.1%,同样超过其他公开 AI 系统但未达人类水平。

安全方面,演示环节介绍了三个主要的安全考虑方向。首先是系统拒绝执行有害任务,使用审核模型和后续检测,并屏蔽特定网站。

其次对于模型可能存在的错误,系统在进行购买、预订等关键操作前必须获得用户确认,限制高风险任务如银行交易,并在敏感网站启用观察模式。

特别是针对网站对抗性攻击(如提示注入、越狱和钓鱼),系统设计了谨慎导航机制识别并忽略提示注入,实时监控模型检测可疑内容,并建立检测管道快速识别可疑访问模式。

最后系统设有注入监控器(prompt injection monitor),类似防病毒软件,实时监控模型检测可疑内容,发现可疑行为时会暂停执行。

考虑到无法预见所有安全隐患,OpenAI 只能先从小规模部署开始,通过持续收集反馈来完善安全机制。

ChatGPT 的崛起已经证明,伟大的产品往往诞生于无数次「不完美」的尝试。

OpenAI 也坦然承认目前由 CUA 支持的 Operator 只是一项早期技术,虽然在特定场景已证明有用,但仍需通过用户反馈持续改进。

并且,他们计划提高系统在不熟悉界面的适应能力,增强文本编辑精确度,优化对不同提示词的理解能力,并扩展可靠任务的范围。

Altman 曾在月初的博客文章中表示,OpenAI 已经有信心构建通用人工智能(AGI),并预测 2025 年第一批 AI 智能体将「加入劳动力大军」。

包括智谱昨天也宣布推出了 GLM-PC。

这是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。

可预见的是,这些智能体在未来将具备强大的自主决策和任务执行能力,能够处理复杂任务,甚至在某些领域替代人类工作,并从根本上改变企业的生产方式和产出。

在 OpenAI 的五级 AGI 路线图中,智能体正是处于 L3 级别,其特点是不仅能思考,还能代表用户采取行动,执行复杂任务。

这样看来, Operator 不仅是 OpenAI 智能体迈出的第一步,也将是迈向 AGI 的重要一步。

直播
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片