OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家
2026年03月06日 06:48 IT之家

IT之家 3 月 6 日消息,OpenAI 今日正式发布了 GPT-5.4 系列模型,包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及面向复杂任务的 GPT-5.4 Pro 版本。

这是 OpenAI 首次将前沿推理、编码和智能体能力整合至单一模型中,旨在提升专业工作的效率和准确性。

在 ChatGPT 中,GPT-5.4 Thinking 新增“思考过程预览”功能,模型会在处理复杂查询时预先展示其推理思路,用户可在模型响应过程中实时调整方向,从而减少来回沟通,更快获得符合需求的结果。IT之家从官方获悉,该功能已在网页版和 Android 应用上线,iOS 版本即将推出。

新模型还增强了深度网络研究能力,特别是在处理高度具体的查询时,能够更好地保持长上下文连贯性。对于需要较长时间思考的问题,GPT-5.4 Thinking 可维持对对话前序步骤的更强意识,确保答案在整个过程中保持相关性和连贯性。

在 Codex 和 API 层面,GPT-5.4 是 OpenAI 首个具备原生计算机使用能力(computer-use capabilities)的通用模型,支持通过截图和键盘鼠标指令操作计算机,完成跨应用的复杂工作流程。

GPT-5.4 系列模型支持高达 100 万 tokens 的上下文窗口,使智能体能够规划、执行和验证长周期任务。

据介绍,GPT-5.4 在专业工作领域实现了大幅突破。在 OpenAI 所测试的 44 个职业领域的 GDPval 基准中,GPT-5.4 在 83.0% 项目上可达到或超过行业专业水平,而前代 GPT-5.2 为 70.9%。

在内部投行级电子表格建模任务测试中,GPT-5.4 的平均得分为 87.3%,远高于 GPT-5.2 的 68.4%。在演示文稿评估中,评审者更偏好 GPT-5.4 生成的演示文稿(68.0% vs. GPT-5.2 的 32.0%),主要优势在于更强的美学设计、更丰富的视觉变化以及更有效的图像生成运用。

在减少错误方面,GPT-5.4 已成为 OpenAI 迄今为止最“ factual”的模型。相比 GPT-5.2,其单个陈述的错误率降低 33%,完整回答中出现任一错误的可能性降低 18%。

GPT-5.4 在计算机使用基准测试中表现优异。在 OSWorld-Verified 基准(通过截图和键盘鼠标操作 PC 桌面环境)上,GPT-5.4 实现了 75.0% 的成功率,远超 GPT-5.2 的 47.3%,甚至超过人类表现(72.4%)。

在 WebArena-Verified 浏览器使用测试中,GPT-5.4 结合 DOM 和截图驱动交互时成功率达 67.3%(GPT-5.2 为 65.4%);在 Online-Mind2Web 测试中,其仅凭观察截图即可实现 92.8% 的成功率,显著高于 ChatGPT Atlas 智能体模式的 70.9%。

视觉感知能力方面,GPT-5.4 在 MMMU-Pro 视觉理解与推理测试中取得 81.2% 的成功率,优于 GPT-5.2 的 79.5%。在 OmniDocBench 文档解析测试中,GPT-5.4 的平均错误率降至 0.109(GPT-5.2 为 0.140)。

另外,GPT-5.4 还融合了 GPT-5.3-Codex 的编码优势,在 SWE-Bench Pro 基准上与之持平或表现更优,同时延迟更低。Codex 中的“/fast”模式可提升 1.5 倍 token 速度,保持同等智能水平。

5.4 新增的“工具搜索”(tool search)功能使该系列模型能够高效处理各种工具。在 Scale 的 MCP Atlas 基准测试中,启用工具搜索后,在保持相同准确率的前提下,其总 token 消耗量减少 47%。同时,GPT-5.4 在 Toolathlon 基准(测试智能体使用真实世界工具和 API 完成多步骤任务的能力)上,它也能用更少的交互轮次实现更高准确率。

同时,GPT-5.4 网络搜索能力也得到增强。在 BrowseComp 基准(测试智能体持续浏览网络寻找难以定位信息的能力)上,GPT-5.4 性能较 GPT-5.2 提升了 17 个百分点,而 GPT-5.4 Pro 更是创下了 89.3% 的新高。

OpenAI 表示,GPT-5.4 延续了 GPT-5.3-Codex 的安全防护措施,并引入新的开源评估“CoT 可控性”(CoT controllability),测试发现 GPT-5.4 Thinking 控制其思维链的能力较低,这有利于安全监控。

在定价方面,GPT-5.4 API 的每 token 价格高于 GPT-5.2,但其更高的 token 效率可降低许多任务的总 token 消耗。批量处理(Batch)和 Flex 定价为标准 API 费率的一半,优先处理(Priority)为两倍。

GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的“遗留模型”部分保留三个月,直至 2026 年 6 月 5 日退役。Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划用户开放。

在 API 中,GPT-5.4 将以 gpt-5.4 名称提供支持,GPT-5.4 Pro 则以 gpt-5.4-pro 名称提供给需要极致性能的开发者;Codex 中的 GPT-5.4 支持 1M 上下文窗口的实验性功能。

OpenAI 表示,GPT-5.4 是首个融合前沿编码能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未来 Instant 模型和 Thinking 模型将以不同速度演进。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片