微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强
2025年11月25日 07:32 IT之家

IT之家 11 月 25 日消息,当地时间 11 月 24 日,微软宣布推出全新的开源小型语言模型 Fara-7B,定位为专门用于计算机操作的“Agentic”模型,可通过鼠标和键盘执行网页任务。

作为微软首个面向电脑使用场景的小模型(SLM),Fara-7B 由 70 亿参数构成,在同级体量中达到领先性能,并能在设备端本地运行,实现更低延迟及更好的隐私保护。

据介绍,Fara-7B 不像传统聊天模型依赖文本交互,而是通过视觉解析网页截图,并在屏幕上执行点击、输入、滚动等动作,不需要依赖额外的可访问性树(Accessibility Tree)或多个大模型协作。

微软为此构建了一条全新的合成数据生成流程,用以模拟复杂多步骤的网页任务,来源包括真实用户需求和真实网页。该流程依托 Magentic-One 框架,涵盖任务生成、任务求解及轨迹验证三个阶段,最终用于训练模型的包括 14.5 万条任务轨迹、100 万步骤,并包含定位、描述与视觉问答等辅助任务数据。

IT之家从微软官方获悉,该模型基于 Qwen2.5-VL-7B 底座,支持最长 128k 上下文。在执行任务时,Fara-7B 会在预测动作前输出推理内容,并调用 Playwright 的标准操作(例如 click (x,y) 和 type ())及网页宏操作(如 web_search ())。训练方式以监督微调为主,并未使用强化学习。

在测试中,Fara-7B 在多项公开基准(WebVoyager、Online-Mind2Web、Deepshop)以及微软新公布的 WebTailBench 中表现亮眼,在部分任务中领先同级模型 UI-TARS-1.5-7B,并可与更大规模、通过复杂提示方式驱动的系统(如使用 Set-Of-Marks 的 GPT-4o)竞争。

另外,微软第三方合作机构 Browserbase 还采用了人工验证的方式对 Fara-7B 进行评测,最终发现该模型在 WebVoyager 上取得 62% 的通过率(包含重试)。

微软强调 Fara-7B 仍为实验性发布,特别是在复杂任务的准确性、指令遵循和降低幻觉方面仍存在局限,未来会持续改进。

鉴于电脑使用智能体模型的特殊风险,微软在模型中加入了多项安全措施,包括要求模型在涉及敏感操作(如提交个人数据或不可逆行为)时停在“关键点”(Critical Point)并征求用户同意;所有操作均会被记录;模型需在沙盒环境运行;并在训练中加入拒绝执行不当任务的示例。Fara-7B 在 WebTailBench-Refusals 的 111 个红队测试任务中拒绝率达到 82%。

目前,Fara-7B 已在 Microsoft Foundry 与 Hugging Face 以 MIT 许可发布并开源,同时整合进 Magentic-UI 研究原型。

微软还宣布将提供量化与面向 Copilot+ PC 的优化版本,可通过 VSCode 的 AI Toolkit 下载并在 Windows 11 本地运行,支持 NPU 加速。微软表示,未来更强的端侧 CUA 模型仍有提升空间,包括依赖更优底座模型与在真实及沙盒环境中使用强化学习。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片