微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
2024年09月15日 10:04 IT之家

IT之家 9 月 15 日消息,科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。

IT之家翻译部分微软官方博文内容如下:

我们采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。

IT之家附上参考地址

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片