让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果

让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果
2026年03月08日 18:03 机器之心Pro

把大模型「放进电脑里」,会出现一种很奇特的反差:

它能写代码、能推理、能把论文总结得头头是道;但一旦让它去操作 Excel、Word 这种真实桌面软件,却像第一次用电脑的人 -- 点错菜单、来回切换,甚至在同一页里循环点击。

很多人第一反应会觉得是 Agent 没看清按钮,或者没理解任务,不知道界面上各个选项是什么意思。但在真实软件里,更大的问题往往不是「看不见」,而是「不知道点下去会发生什么」。

在同一个界面上,不同的操作会把系统带到完全不同的状态,一旦点错,往往很难简单撤销。操作会产生延迟,流程被打断,有时甚至会直接破坏文档。因此,关键不只是识别界面或读懂指令,而是能提前判断每个动作可能带来的结果。

人学习使用软件时,看起来像是在界面里「到处试一试」。

比如你要给一个 Excel 工作簿加密。面对界面时,你会下意识地判断:点这个入口会不会弹出密码窗口?点那个标签只是切换视图,还是在真正推进任务?哪个操作更像是在朝目标靠近?

你并不是随便点击,而是在挑一个更可能有效的下一步。

这种在行动前先预想结果、再用一次操作去验证的过程,在认知科学中通常被称为反事实推理。

很多时候,人并不是等系统反馈才知道对错,而是先对可能发生的结果有一个大致预期,再去确认。

相比之下,不少 GUI Agent 更像「看一步、做一步」:它能读懂当前截图里的内容,却缺少对「这个动作通常会带来什么变化」的判断,因此只能在真实环境中反复尝试,试错成本也更高。

CUWM:在真正点击之前,先在「脑海里点一遍」

微软研究团队提出的 Computer-Using World Model(CUWM),想解决的正是这个问题。它做的事情可以简单理解为:在真的操作软件之前,先让智能体「想象一下会发生什么」。

  • 论文链接:https://arxiv.org/html/2602.17365v1

更具体地说,给定当前界面的截图,以及一个候选操作(例如点击某个按钮),CUWM 会预测执行这个操作后的界面图像。

图 1 展示了以当前软件界面的截图和对应操作作为输入,CUWM 预测执行该操作后出现的下一步界面图像。当智能体面对多个可选动作时,它不需要立刻在真实软件里一个个去试,而是先把这些动作交给世界模型模拟 —— 于是会得到几种「想象出来的下一步界面」。

图 1:CUWM 预测的不同动作导致的软件界面图片。从同一当前界面(current state)出发,执行不同操作,如点击 Encrypt with Password、打开 Images 或放大视图,会得到不同的下一个状态(例如弹出密码窗口、展开工具面板或改变显示比例)。

接下来,智能体只需比较:哪一种结果更接近任务目标?选出最合理的一步,再在真实系统中执行。

论文把这个过程称为 world-model-guided test-time action search。重要的是,智能体本身的策略是冻结的,没有重新训练;性能提升来自于更好的「预演」和更充分的测试时计算,而不是把 Agent 本身变得更复杂。

换句话说,CUWM 不是在教智能体更会操作,而是在给它一种「先想后做」的能力。

图 2:CUWM 概述:给定当前 UI 截图与动作(如点击 Excel 的列「H」),CUWM 先生成一段聚焦局部变化的过渡描述(Stage 1),再在保持不变区域稳定的前提下对截图进行条件编辑,生成预测的下一状态(Stage 2)。

关键设计:模型关注的不是像素,而是「变化」

桌面软件 UI 的特点是:大部分区域长期不变,变化通常发生在局部 —— 选区高亮、面板展开、弹窗出现、光标移动…… 如果端到端预测整张下一帧截图,模型既要背负巨大的不变背景,又要捕捉极小但关键的变化,低效且容易「注意力错位」。

CUWM 的关键设计是把「下一步预测」拆成两段:

  • Stage 1:先说清楚「变了什么」(Textual State Transition):输出一段结构化、尽量简洁的「过渡描述」,只写与动作相关的界面变化;

  • Stage 2:再把变化落实到截图上(Visual State Realization):用条件图像编辑把变化渲染到原图上,尽量保持不变区域稳定,生成下一步截图。

这一分解的重点不在「画得多逼真」,而在让模型学到:动作改变的是系统状态,而智能体真正需要的是「点了之后世界怎么变」。

图 2 展示了 CUWM 的两阶段流程:先生成「变化描述」,再把变化实现成下一帧 UI。这种「what changes /how it appears」的分解,让模型把注意力放在动作后果上,而不是低效地重绘整张界面。

训练数据怎么来:从真实交互里抽三元组,再自动写「变化描述」

CUWM 不依赖昂贵的在线强化学习环境,而是从真实软件的交互轨迹中构造训练样本:把一次操作前后的界面截图配对,再附上对应的动作表示,形成标准的 ((s_t, a_t, s_{t+1})) 训练三元组。

关键在于 Stage 1 的监督信号 ——「变化描述」怎么得到?论文做法是用 GPT-5 作为自动标注器:对每个三元组生成一段简洁的 UI 变化描述,明确「哪些变了、哪些不变」,用来监督微调 Stage 1。

为了让描述更短、更结构化、更少幻觉,作者还在 SFT 之后用 GRPO 做轻量 RL 细化:奖励由 LLM-as-a-Judge 的结构一致性评分与长度惩罚组合,从而有效覆盖关键 UI 结构。

结果:智能体开始「规划行动」

在实验中,智能体需要完成「给 Excel 工作簿添加密码保护」的任务。它不会立刻在真实环境里点来点去,而是先提出多个候选动作,并逐个调用 CUWM 进行模拟,得到每个动作可能带来的「下一步界面」。

随后,智能体把这些模拟结果与任务目标进行对照,最终选择点击「Protect Workbook」—— 因为这一候选动作对应的预测界面最符合「进入保护 / 加密流程」的预期方向。

那么,智能体是如何在点击前完成一次「内部试错」的?图 3 给出了直观示例。

图 3:先模拟后执行:world model 做「模拟器」,Agent 做「决策者」。 智能体先提出多个候选动作,CUWM 分别预测每个动作会导致怎样的下一步 UI;智能体再根据这些预测结果与任务目标的匹配程度,选择更可能推进任务的那一步(示例中为「Protect Workbook」),从而减少真实环境中的反复试错与无效点击。

这正是 CUWM 的价值所在:把高成本的环境试错转移到模型内部。智能体先在「想象出来的下一屏」里完成比较与选择,再把最有希望的一步落到真实软件执行。从「高成本试错」变成「低成本模拟」,显著降低无效操作与循环点击,让 GUI Agent 从反应式点击走向规划式决策。

更进一步,论文指出,性能提升的关键更多来自对界面结构变化的正确预测(例如面板是否展开、关键入口是否出现),而不只是生成图像的视觉逼真度。这也侧面说明,GUI Agent 的核心能力并非纯视觉识别,而是面向交互的规划与决策。

更深层的意义:Agent 决策能力意味着什么

如果把大模型的发展看成一条连续的能力变化,其实不只是「更聪明了」,而是能力的类型在改变。

过去,大模型主要解决的是理解与表达的问题:它能读懂一段话、回答问题、写文章、解释概念。这些能力本质上都发生在「信息空间」里 —— 输入是文本,输出也是文本。模型只需要给出一个合理的回答,不需要承担真实后果。

但当 AI 进入软件环境,问题发生了变化,这里不再是「回答是否合理」,而是「动作是否有效」。一次点击、一次输入、一次拖拽,都会改变系统状态,并影响之后还能不能继续完成任务。也就是说,AI 不再只是解释世界,而是在改变世界(哪怕只是数字世界)。

这时,Agent 的核心能力就变成了决策能力:它必须在多个可能动作中做选择,并对选择的后果负责。关键不再是「这句话对不对」,而是「这一步走完之后,任务更接近还是更远」。

人类在操作软件时,之所以效率很高,是因为在行动前会形成一种内部判断:这个操作大概会带来什么结果。如果结果不符合目标,往往在点击前就会放弃,而不是等系统报错。这其实是一种对「动作 → 状态变化」的理解。

而很多当前的 GUI Agent 缺少的正是这一层。它能识别界面、能理解指令,却仍然主要依赖真实交互去排除错误路径。也就是在环境里不断试错,直到碰到正确步骤。换句话说,它更像是在反应,而不是在决策。

CUWM 的意义,不只是提高成功率,而是让 Agent 开始具备一种新的能力:在执行之前先评估后果。

当智能体可以先模拟不同动作带来的不同未来,再选择更合适的一步时,它做的就不再只是「操作界面」,而是进行路径规划。试错仍然存在,但优先发生在内部,而不是直接作用于真实系统。

因此,这里的转变可以这样理解:大模型让 AI 学会了「如何回答」,而决策能力让 AI 开始学会「如何行动」。当 AI 能根据预期后果来选择动作时,它才真正从一个对话工具,变成一个能够在数字环境中推进任务的行动体。

作者介绍

CUWM 的作者是微软实习生以及微软 UFO 团队的成员,包括 Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao 等。

微软智能体软件
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片