
近日,昆仑万维(38.660, -1.26, -3.16%)2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio,旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台,让开发者们能够轻松、高效、灵活地构建专属数字智能体。
AgentStudio所提供的工具涵盖数字智能体开发的全部流程,包括智能体观察与动作空间、跨平台的在线环境支持、交互式数据收集与评估、可扩展的任务套件、以及相应的图形界面。此外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。
AgentStudio是一个完全免费的开源项目,项目团队希望通过这一开源努力,与人工智能社区携手加速智能体技术发展,促进前沿知识共享与合作。目前,AgentStudio相关论文、代码、数据、文档已全部公开。
论文标题:AgentStudio: A Toolkit for Building General VirtualAgents
论文链接:https://arxiv.org/abs/2403.17918
项目主页与文档:https://skyworkai.github.io/agent-studio/
开源代码:https://github.com/SkyworkAI/agent-studio
Leaderboard:https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

智能体:大模型产业最前沿
近来,随着大模型技术在自然语言理解、工程能力、数据能力、存储能力等领域的突破,大量以大模型技术驱动的智能体(Agents)不断涌现,在通用性、实用性、可落地性等方面都表现卓越。
不同于传统软件程序,基于大模型能力打造的AI智能体具备感知环境、进行决策、执行动作等能力,并能够通过独立思考、调用工具去逐步完成给定目标,成为当前全球AI大模型领域的关注最前沿。此前,昆仑万维已经推出“天工SkyAgents”AI Agents开发平台,用户可以通过自然语言和简单操作,无需代码编程,即可在几分钟之内部署属于自己的AI Agents。
现如今,在大模型的助力下,数字智能体(virtualagents)可以通过操控手机电脑上的软件帮助人们完成许多日常工作,提高工作效率。
然而,当前数字智能体的进展很大程度上受到了基准环境和数据来源的限制,他们大都仅在简单、受限的场景下评估与演示,从而掩盖了面临的挑战,离真正落地需要的可用性与可靠性仍有较大距离,然而缺乏全面、真实的收集数据环境又阻碍了这些智能体能力的进一步提升。
AgentStudio工具包的开发,正是基于当前人工智能领域对高效、可扩展智能体开发工具的迫切需求。该工具包不仅包括了智能体观察与动作空间的定义工具,还提供了跨平台的在线环境支持,使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外,AgentStudio还支持交互式数据收集与评估,以及可扩展的任务套件,极大地增强了其实用性和灵活性。
AgentStudio:灵活、通用、可扩展



(AgentStudio架构及环境介绍。AgentStudio是一个支持与真实世界计算机在线交互的平台。与现有环境相比,它具有最通用的智能体观察和动作空间,同时提供了对工具制造与使用、收集人类反馈与数据集等功能的支持。)
目前,全球有多种数字智能体开发工具包,支持不同的开发环境和应用领域。与现有工具相比,AgentStudio的主要优势在于:
l 可复现、多模态、跨平台的在线环境:AgentStudio支持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备,相比现有环境更加注重真实落地场景。
l 统一的标准化的输入输出:为了支持智能体和尽可能多地各种软件进行交互,AgentStudio采用了最为通用的输入输出方式,既支持像人一样通过观察电脑屏幕的图像作为输入,操作键盘鼠标和命令行作为输出,也支持进行函数调用和使用API,达到通用计算机控制。
l 全面、可扩展、可组合的任务集:AgentStudio包含了在十余个应用上用于全面评估AI智能体完成指令的能力,全方位覆盖各种应用软件,如文档操作、邮件处理、日历使用、音乐播放、视频编辑器、代码编辑器等,涵盖复杂真实应用场景,同时包含了范围从单个底层操作到跨任务的组合性任务的不同难度的多级任务。AgentStudio基于该任务集,公开了相应的leaderboard。
l 完整的智能体数据收集与评估代码:AgentStudio的功能不仅包含了对智能体能力的评估,而且包含了完整开源的数据集收集代码,可用于人工标注数据集,也可用于智能体自行收集经验。
l 关注工具创造与使用:在开放域中的工具创造与使用是AI智能体的核心能力之一。以电脑为例,AgentStudio为智能体提供了最通用的三类工具:键盘、鼠标、与命令行,同时支持智能体进一步在交互过程中自行创造并复用新的工具,如用于创建、修改日历的工具集,实现智能体的不断自我提升。
l 交互式可视化界面: AgentStudio提供用户友好的轻量化GUI界面,帮助用户方便快捷地一键自动化创建任务并搜集数据。以下流程图将直观呈现使用AgentStudio创建任务并收集数据的过程。通过AgentStudio提供的用户友好的界面,用户可以实现跨平台的人工演示的录制,包括输入任务指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能,这些大幅简化了大规模数据收集的难度,为下一代智能体数据规模化提供了基础。


多维度全面评估
除了搭建工具包外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。为了全面评估智能体的能力,AgentStudio的结果从多个维度入手:
l 图形界面grounding数据集:任务仅包含单步动作,指令为不需要规划的底层操作,主要关注智能体和图形界面交互的能力;
l 日常任务与组合性任务集:任务完成调用复杂API,或需要多步动作、并常常需要跨软件交互。该任务集用于衡量智能体完成日常任务、以及进行复杂动作规划的能力。
AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法,并衡量了模型自我评估的能力,这些都对智能体的自我提升和真实落地至关重要。根据评测结果,研究团队在论文中还讨论了若干有前景的研究方向,包括更通用的图形界面grounding模型和算法、从视频演示中学习等。



智能体全流程解决方案
从环境到智能体,从数据到评估,AgentStudio提供了一套完整的解决方案覆盖了构建智能体的全过程,将极大地加速了智能体的发展。AgentStudio的建立在研究团队对智能体、工具调用、代码解释器的深入理解与积累之上。
目前,研究人员已经开源了所有结果,包括环境的实现、智能体数据集、算法实现等,希望帮助人工智能社区搭建更多能够完成复杂任务的AI智能体。欢迎感兴趣的研究与开发者们下载使用,并关注AgentStudio团队其他相关项目。
AgentStudio团队其他相关工作:
Synapse:https://ltzheng.github.io/Synapse
Cradle:https://baai-agents.github.io/Cradle/
FinAgent:https://arxiv.org/abs/2402.18485
(本文系企业供稿,内容仅供参考)


APP专享直播
热门推荐
2000年以前建成的老旧小区,全部纳入城市更新改造范围 收起2000年以前建成的老旧小区,全部纳入城市更新改造范围
- 2025年03月09日
- 08:08
- APP专享
- 扒圈小记
2,840
大消息!特朗普、马斯克,突发!
- 2025年03月09日
- 23:57
- APP专享
- 扒圈小记
2,096
鸿蒙智行“野生销售员”排行榜
- 2025年03月09日
- 03:04
- APP专享
- 北京时间
1,661

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 10:11:24
【石英股份(sh603688)澄清:购买甘肃新石英矿的传言不属实】石英股份(sh603688)(603688.SH)发布澄清公告,公司关注到网络平台关于购买甘肃新石英矿的传言,现予以澄清说明。2025年3月6日,公司与甘肃省天水市麦积区签订投资意向协议,非传言所说的购买石英矿。该协议的内容为投资建设石英材料产业园项目,总投资不超过6亿元,主要生产高纯石英制品等产品。 -
趋势领涨今天 09:42:18
【南向资金大幅今日净买入296.26亿港元 盈富基金获净买入104亿港元】南向资金大幅净买入296.26亿港元,单日净买入额创历史新高。盈富基金、恒生中国企业、阿里巴巴-W分别获净买入104亿港元、55.34亿港元、29.18亿港元;中芯国际(sh688981)净卖出额居首,金额为4.64亿港元。 -
数字江恩今天 09:30:16
明日来说,看3378点位是否突破。若这里突破,那么今日最低点3347可以是3390回踩最低点。否则,明日都还要继续回踩,回补上周四日线缺口,并且确认3330支撑后,才会再次掉头向上攻击3400整数位。这里的操作,以3330跌破作为休止,只要不触及这个条件,就只有姿势的问题,都会去到3400以上。 -
数字江恩今天 09:30:10
看5分钟图,今天虽然午后开始反弹,但是否达到3390应有的回踩级别还有待观望。这里3390的回踩,只要在3330以上获得支撑,都是正常回踩,说明3297的反弹还会继续向上冲高3400整数位。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:29:55
板块上,今日新能源、新能源车、医药医疗、农林牧渔和军工涨幅靠前,前期的科技和机器人(sz300024)分化严重。部分消费类起来,科技类分化,显示市场风险偏好降低,等待重要事件完成后的走向。 -
数字江恩今天 09:29:49
A股两市今日成交5950 + 9106 = 15056 亿人民币,明显缩量。大盘今日上午回踩、下午反弹,收跌6个跌,略微回补了一点上周四的缺口,但未能完全回补。个股方面,超过60%的个股收红。 -
数字江恩今天 09:29:44
底线思维看待震荡 -
宋谈股经今天 08:33:35
今日共80股涨停,连板股总数10只,17股封板未遂,封板率为82%(不含ST股、退市股)。焦点股方面,虽然华丰股份(sh605100)、大位科技(sh600589)都走出反包行情,但高位股整体依旧偏弱,云鼎科技(sz000409)、海南华铁(sh603300)等人气股跌停,浙江黎明(sh603048)盘中一度上演天地板。 -
趋势领涨今天 08:09:57
【利好兑现】武汉将重点推动大模型向智能体演进,《方案》将重点推动大模型向智能体演进,在产业政策中给予支持,目前正在开展全市首批智能体产品和创新创业团队的入库、培育。武汉市已经建立了服务专班,协调服务企业发展所需要的数据、算力等各类要素,搭建沟通交流平台,全年将开展10场以上的供需对接的活动,推动人工智能企业联合行业开发工业、医疗、教育、法律、文创等垂直行业的智能体,形成武汉智能体产品的矩阵,打造一批轻量化的智能化的产品。 -
北京红竹今天 08:06:38
3、知识点教学【每周内参】第一期品种,周五涨停,今天开盘涨停之后回落,最后收阴,上周晚上直播时,咱们就有教学过,但是给的结论是上涨还没完事,那现在呢?今天高开回落,看下面MACD,很明显没有任何背离,虽然已经完成了反弹段,今天回落正好处于五分钟级别三买的区间,按照缠论的知识点,可以得出什么结论呢?评论区来说一下。