GPT-5.4!「Agent 原生」大模型来了?

GPT-5.4!「Agent 原生」大模型来了?
2026年03月06日 08:39 极客公园

OpenAI 终于想明白了。

作者|桦林舞王

编辑|靖宇

在传闻刚刚两天后,当地时间 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而这次模型更新,主打的正是当下最火热的 AI Agent 方向。

在 GPT-5.4 之前,大模型的能力边界可以用一句话总结:它能告诉你「怎么做」,但它自己做不了。

你让它帮你分析竞争对手,它会给你一份洋洋洒洒的文字报告;你让它整理 Excel,它会写一段 Python 代码让你自己去跑;你让它帮你订机票,它会一步一步告诉你去哪个网站、点哪个按钮。

中间那道墙,叫做「计算机操作」

GPT-5.4 是 OpenAI 第一个把这道墙拆掉的通用模型。

GPT-5.4 相比之前模型的提升|图片来源:OpenAI

它可以通过截图识别屏幕内容,发出鼠标和键盘指令,在不同应用之间执行多步工作流。用 OpenAI 自己的话说,这是他们「迄今为止面向专业工作最强大、最高效的前沿模型」。

更技术一点,GPT-5.4 支持高达 100 万 token 的上下文窗口,并且可以调用 Playwright 等库,直接操控浏览器和桌面应用。

这意味着它处理的不再是「关于任务的对话」,而是「任务本身」

01

OpenAI 的铺垫

如果你一直在跟踪 OpenAI 最近几个月的动作,会发现 GPT-5.4 不是一个突然冒出来的产品,而是一条清晰战略线上的最新落子。

就在两周前,OpenAI 刚刚发布了 GPT-5.3-Codex,把 Codex 从「能写代码的 Agent」升级为「几乎能做开发者在电脑上所有事情的 Agent」,并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行业基准。

与此同时,OpenAI 推出了面向企业的「Frontier」平台,HP、Intuit、Uber 已经是早期用户。

GPT-5.4 在表格填写上明显比 5.2 更聪明|图片来源:OpenAI

更早之前的 3 月 2 日,OpenAI 和 AWS 把原有的 38 亿美元合作扩大到超过 1000 亿美元,为期 8 年,AWS 成为 OpenAI Frontier 平台的独家第三方云分发商。这笔钱的规模,本身就是一个信号。

1100 亿美元的最新融资轮,由 Amazon、SoftBank 和 Nvidia 各出数百亿美元撑起来,也在同期落地。

这不是一家在「研发好产品」的公司,这是一家在全力冲刺「赢得企业 AI Agent 市场」的公司。

GPT-5.4 的原生计算机操作能力,正是这场冲刺的关键武器。

02

真的好用吗?

发布会上的功能演示永远很好看,问题在于实际表现。

金融科技公司 Walleye Capital 在内部测试中报告,GPT-5.4 在 Excel 财务模型评估里,把准确度提高了 30 个百分点,显著加快了情景分析的自动化流程。

人才评估平台 Mercor 的 CEO 则直接称其为「我们测试过的最好模型」,在处理幻灯片制作、财务建模和法律分析等长周期任务上表现突出。

一位每天使用 Codex 的独立开发者,给出了更接地气的评价:「GPT-5.4 是我在 Codex 里的新日常驱动。它的思考方式更接近人类,没有 5.3 那么痴迷于技术细节。」但他也加了一句提醒——「要小心,我遇到过几次模型错误执行任务却隐瞒这一事实的情况。」

GPT-5.4 在操作和视觉方面的提升|图片来源:OpenAI

这个细节值得玩味。

基准测试数据也在印证这种能力的提升。据报道,GPT-5.4 在 GDPval 基准上的表现超过了 83% 的普通办公室员工。这个数字听起来很炸,但真正的问题不是「它能超过多少人」,而是「在哪些任务上能替代人」。

不过,爱丁堡大学信息学院的 Jeff Dalton 博士也指出了一个现实问题——目前的演示里,几乎没有足够详细的评估证据来支撑那些宏大的说法。能力是真实的,但边界在哪里,还需要更多独立验证。

03

Agent 战场,没有安全区

如果说 GPT-5.4 代表 OpenAI 的 Agent 野心,那竞争对手们并没有闲着。

Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了「Computer Use」功能,Anthropic 把它定位为专为复杂任务设计的混合推理模型。

Google 的 Gemini 2.0 系列也在「Agentic」能力上持续发力,Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。

但 GPT-5.4 和竞品的本质差异,在于它是 OpenAI 第一个把计算机操作能力,内置进通用模型的产品——不是一个独立工具,不是需要额外调用的 API,而是模型本身就带着这个能力。

这个「原生」二字,在工程实现上意味着什么,说白了就是更低的延迟、更自然的任务衔接、更少的「胶水代码」。对于想快速落地 Agent 应用的企业来说,这个区别直接影响部署成本。

OpenAI 还宣布 GPT-5.4 可以直接接入微软 Excel 和 Google Sheets,在单元格层面完成粒度分析和自动化操作。这一步,明显是在打企业决策流程的核心地带。

Agent 的战场,从来就不是哪家跑得快,而是谁能最先把自己嵌进企业工作流里,成为那个「拔不掉的存在」。

技术发布会总是充满激情,但真正的考验在第 91 天——那时候热度散去,用户在真实工作场景里打开这个工具,它能不能稳稳接住那个截图,准确点下那个按钮,安静地把任务跑完,然后把结果交回来。

那个开发者说的「隐瞒错误」,是我目前看到的这篇报道里最值得警惕的一句话。

AI Agent 能力的天花板,从来不是「它能做什么」,而是「你敢不敢信任它去做」

信任,才是这场 Agent 战争真正的货币

excel
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片