新智元报道
编辑:泽正 英智
【新智元导读】AI大模型正从仅会聊天的LLM进化为能够执行任务的大型行动模型LAM。它不仅能理解用户的指令,还能在软件环境中自主执行任务。
LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了!
最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。
与传统的LLM不同,LAM不仅能理解用户的自然语言指令,还能将这些指令转化为具体的行动步骤,在软件环境中自主执行文档编辑、表格处理等任务。
虽然这实际上并不是一个全新的概念,但LAM是首款能够操作Microsoft Office来执行任务的模型。
论文链接:https://arxiv.org/pdf/2412.10047
不同于GPT-4o等负责处理和生成文本的传统语言模型,LAM可以将用户请求转化为实际操作。
例如同样是给一个男人买夹克,LLM只能给出文本步骤,而LAM却可以直接像女朋友一样挑选款式并网购。
哪个更加有实际效用,这就自不必多说了。毕竟谁不想有个能直接替自己去解决一些生活琐碎的「分身」呢?
LAM能够理解用户通过文本、语音或图像等各种输入方式表达的需求,并将这些需求转化为详细的逐步计划。
执行过程中,LAM能将复杂的任务分解为多个子任务,根据实时情况调整其行动策略,以应对执行过程中的意外情况。
此外,LAM还能自主探索与学习,独立探索新的解决方案。
让LLM行动起来
LAM通常建立在LLM的基础上,但是从LLM到LAM的过渡却并没那么容易,如下图所示。
从LLM到LAM的转变
将LLM转化为功能性LAM的过程涉及多个复杂的阶段,每个阶段都需要大量的努力与专业知识。
首先需要利用LLM来处理用户数据集,并生成对应的文本输出,将任务分解为行动与相应的计划。
经过微调之后,接受了任务要求的LAM就能输出对应的文本格式的行动输出。
最后将其输出反馈给智能体,让其与环境不断地实时交互。
如何开发LAM?
既然LAM能够为我们执行任务,化为我们的「分身」来帮我们与世界互动,那么如何开发与部署LAM就是一个关键的问题。
LAM的训练过程包括以下关键步骤:
1.任务分解与规划:模型首先学习将任务分解为逻辑步骤,并生成详细的执行计划。
2.行动生成与执行:将用户意图转化为具体的行动指令,包括图形用户界面操作、API调用等。
3.动态调整与优化:在执行过程中,LAM能根据反馈调整其行动策略,以提高成功率和效率。
4.从奖励机制学习:通过奖励机制进行微调训练,进一步优化模型的性能。
阶段1:任务分解与规划
在初始阶段,模型将任务分解为逻辑步骤。
研究人员以Mistral-7B作为基础模型,收集了来自多个来源的76,672个任务-计划对( , ),包括应用帮助文档、WikiHow和历史搜索查询。
在此阶段不会生成具体的行动,但模型获得了强大的规划能力,为后续的动作执行提供了重要基础。
阶段2:行动生成与执行
在此阶段,作者引入了由GPT-4o标注的任务-动作轨迹,让LAM向先进的AI模型GPT-4o学习。
将学习到的任务规划转化为可执行的动作,从GPT-4o的成功经验中汲取知识和策略,更好地理解和处理复杂任务。
本文中的示例应用是Microsoft Word,在该环境下共收集了2,192个成功的专家轨迹。每个轨迹由一系列状态-动作对( , )组成。通过对这些成功的行动序列进行学习,我们获得了LAM2。
阶段3:动态调整与优化
之后,我们让模型尝试解决GPT-4o失败的任务,通过ReAct机制与环境进行交互。
首先从GPT-4o失败的任务中采样2,284个任务,并收集了LAM2生成的496个成功轨迹,将这些数据与2,192个GPT-4o成功轨迹相结合,形成了一个增强数据集。
在这一阶段,LAM会自主探索新的解决方案,尝试解决那些曾难倒其他AI系统的问题,拓展自身能力边界,增强对不同任务和场景的适应性。
阶段4:从奖励机制中学习
尽管模型在前述阶段有所改进,但未能充分利用失败所带来的学习机会。
因此,论文引入了强化学习来解决这些问题。通过基于奖励的训练对系统进行微调,根据模型执行任务的结果给予相应的奖励或惩罚,引导模型不断优化行为策略,以达到更好的效果。
可以看到,训练LAM的过程包括四个步骤:首先,模型学习如何将任务分解为逻辑步骤。其次,通过先进的AI系统(如GPT-4o)学习如何将计划转化为具体行动。然后,LAM会独立探索新的解决方案。最后,通过奖励机制进行微调训练。
表中总结了每个阶段使用的训练数据。
LAM数据收集与构建
众所周知,数据是训练LLM的基石。类似地,LAM在监督微调阶段也需要经过精心准备的以行动为导向的高质量数据。
因此研究者采用了两阶段的数据收集:任务-计划数据和任务-行动数据,如下图所示。
任务-计划数据:在这一阶段,研究者收集包含任务和对应计划的数据。
任务是用自然语言表达的用户请求,而计划是为完成这些任务而设计的详细步骤。例如,「如何在Word中更改字体大小?」会有一个对应的计划,概述完成该任务所需的步骤。
这些数据用于微调模型,以生成有效的计划,并提升其高层次的推理和规划能力。
构建任务-计划数据的流程
任务-行动数据:在这一阶段,任务-计划数据被转换为任务-行动数据,包括任务、计划和执行这些计划所需的相应动作序列。任务和计划被细化为更具体且能够在特定环境中执行的内容。
构建任务-行动数据的流程
经过上述图中的4个处理步骤后,最终生成的动作序列类似于:
或者是
也就是能够直接与环境交互的可执行指令。
总的来说,任务-计划数据旨在增强模型的高层次规划能力,使其能够根据用户请求生成详细的逐步计划。
而任务-行动数据则侧重于通过将每个计划步骤转化为具体、可执行的步骤或序列,从而赋予模型执行这些计划的能力,并能接受环境的实时反馈。
数据收集和准备流程确保模型能够同时进行高层次规划和低层次行动执行,从而弥合了LLM生成计划与能够采取可执行行动之间的差距。
LAM的在线评估
我们将训练完成的LAM集成到GUI智能体UFO中,使模型预测的行动能够在Windows操作系统中有效执行,并与环境进行交互。
UFO智能体通过接受自然语言的用户请求,并与Windows应用程序的UI控件进行互动,完成具体任务。
我们采用以下指标对 LAM 的性能进行全面评估:
1. 任务成功率(Task Success Rate, TSR): 成功完成任务的数量占尝试总任务数量的百分比。
2. 任务完成时间: 从初始请求到最终动作完成的总时间。
3. 任务完成步骤: 智能体成功完成每个任务所执行的总动作步骤数量。
4. 平均步骤延迟: 每个动作步骤的平均耗时。
LAM在Word测试环境中的成功率为71%,而GPT-4o在无视觉信息输入的情况下,成功率为63%。
此外,LAM的执行速度也更快,每个任务仅需30秒,而GPT-4o则需要86秒,是LAM的2.8倍。
实验结果突显了LAM作为仅使用文本的模型的优势,使LAM成为实际应用中有效的解决方案。
未来展望
LAM的推出为办公自动化、复杂任务处理等领域带来了新的可能性。例如,在Microsoft Office中,LAM可以自动执行文档编辑、表格处理等任务,极大地提高工作效率。此外,LAM还有潜力在更多领域发挥重要作用。
LAM展示了其发展潜力,在商业化落地中仍然面临一些挑战,例如,控制机器人(19.300, -0.30, -1.53%)系统的LAM可能会误解指令并导致损害;金融或医疗应用中如果执行错误动作,可能带来严重的后果。
然而,研究人员相信,LAM代表了AI发展的一次重要转变,预示着AI助手将能更积极地协助人类完成实际任务。
行动胜于言辞
LAM的推出标志着人工智能从语言理解向任务执行的转变,开启了AI自主的新时代。从生成语言到执行具体动作,大模型将能在现实世界中产生直接影响,这是迈向AGI的关键一步。
未来,随着技术的不断发展,LAM将在更多领域发挥重要作用,为我们的生活和工作带来更多便利和惊喜。
参考资料:
https://the-decoder.com/microsofts-new-large-action-model-can-perform-some-tasks-in-word/
https://arxiv.org/pdf/2412.10047
https://microsoft.github.io/UFO/dataflow/overview/
APP专享直播
热门推荐
特朗普考虑上任后签署行政令暂停TikTok禁令 收起特朗普考虑上任后签署行政令暂停TikTok禁令
- 2025年01月15日
- 22:04
- APP专享
- 广西台新闻910
- 12,314
指甲起竖纹是肠胃不好?指甲“月牙”越多越健康?真相来了
- 2025年01月15日
- 22:15
- APP专享
- 广西台新闻910
- 1,401
《闪亮的名字——2024“最美基层民警”发布仪式》明日播出
- 2025年01月14日
- 13:32
- APP专享
- vsta
- 777
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 07:44:34
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
宋谈股经今天 07:13:07
1月16日收评:创业板指冲高回落涨0.66%,寒武纪(sh688256)放量大跌超14%1、市场全天冲高回落,三大指数集体收涨。家电、零售等消费股拉升,火星人(sz300894)、浙江美大(sz002677)、帅丰电器(sh605336)、深康佳A(sz000016)等多股封板。CPO概念股午后走强,天孚通信(sz300394)、方正科技(sh600601)、共进股份(sh603118)涨停,太辰光(sz300570)涨近8%,股价续创历史新高。有色、油气、煤炭等周期股走高,准油股份(sz002207)、鹏欣资源(sh600490)、闽发铝业(sz002578)、安源煤业(sh600397)涨停。下跌方面,芯片股下挫,寒武纪(sh688256)大跌超14%;机器人(sz300024)概念冲高回落,建设工业(sz002265)、东港股份(sz002117)跌停。个股涨多跌少,沪深京三市超3300股飘红,今日成交1.29万亿。截止收盘沪指涨0.28%,深成指涨0.41%,创业板指涨0.66%。2、板块概念方面,CPO、家电、零售、有色金属等板块涨幅居前,AI芯片、机器人(sz300024)、减速器、半导体等板块跌幅居前。3、两市共3153只个股上涨,84只个股涨停,1772只个股下跌,7只个股跌停,31只股票炸板,炸板率30%。 -
徐小明今天 07:12:59
【盘中直播】语音课见 -
巨丰投资张翠霞今天 07:04:48
4小时运行结束,总结全天市场运行,1)指数宽幅震荡一天,寒武纪(sh688256)为首的高位高价股出现闪崩急跌,主要来自于年报不及资金预期,以及海外政策扰动,年报预披露阶段避雷为主要点,盘口消费机器人(sz300024)小红书轮动拉升,超跌的CPO迎来修复,总体轮动节奏;2)量能,沪深两市今日成交额12930亿元,较上个交易日12119亿元增加811亿元;3)行业板块方面,以加权涨幅来看56家行业36家红盘,通信设备、公共交通、工程机械等板块涨幅居前;半导体、酿酒、仓储物流等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~ -
徐小明今天 07:04:42
【盘中直播】你回首行情,,你发现我们该做的都做了。 -
波段擒龙今天 07:04:02
A股三大指数今日集体反弹,截至收盘,沪指涨0.28%,深成指涨0.41%,创业板指涨0.66%,北证50指数涨2.04%。全市场成交额12930亿元,较上日放量811亿元。全市场超3300只个股上涨。板块题材上,厨卫电器、CPO、小红书概念、工业金属板块涨幅居前,半导体、人形机器人(sz300024)概念跌幅居前。 -
冯矿伟今天 07:01:58
明天见! -
趋势起航今天 07:01:56
周二市场见底至今,这波反弹最大的特点就一个字:乱无序轮动,没有主线,中线交易靠格局,短线交易必须要灵活应变;短线交易,无论对哪个方向太上头,最后的结果要么利润回吐做电梯,要么吃面。 -
量化伏妖今天 07:01:26
【股票收评】:上冲遇阻今日市场想重拾升势,早盘高开11点后全日表现比较纠结,上蹿下跳不太稳定,下午13点13分下探出全日最低3217点后回升,虽然顽强的翻红了,但是翻红后想要更高阻力非常大,没上升一个点都要非很大劲,盘面不轻快,死气沉沉的感觉。板块方面昨日连扳,CPO概念,盲盒经济,F5G概念,快手概念,退税商店,光通信模块,小红书概念,家电行业等板块涨幅靠前;AI芯片,人形机器人(sz300024),减速器,半导体,CRO等板块微跌。总体看上方市场内在价值线3242点阻力巨大,不是一次就能成功站上去的,需要继续努力,技术上具备了继续冲高的条件了,还要各方面齐心协力。 -
趋势领涨今天 06:58:03
前期市场一直将寒武纪(sh688256)跟美股英伟达对比,英伟达上涨是因为有业绩支撑,寒武纪(sh688256)上市亏损了6年,它有业绩吗?虽然去年第四季度转成了盈利,但本来只值7元的股价,结果炒到了777元,它不跌,天理不容!只是可怜了广大基民,又是基民买单了!这两天小红书很火爆,但更火爆的还是小红书暴露了漂亮国一些秘密,全球都认为,美国就业强劲,但是美国人自己有苦说不出,因为他们是8小时工作制度,如果企业超过这个限制,那是不允许的,重点是,他们物价太高,为了生活,他们又必须得再找一份工作,然后,他们又被统计了一遍,所以,物价越高,他们兼职越多,然后就业率就节节攀升!你们说牛不牛逼?如果不是小红书火爆,我们还真不知道他们原来是这么玩的!昨晚发布了规范中介机构为公司公开发行股票提供服务的规定,目的就是要从源头保护投资者的权益,目前证监会各项制度都在完善中,在这个时候,证监会把握住了IPO的节奏,对待上市公司从严审核,减少欺诈发行的概率,这是全心全意保护投资者的举措。但有些专家想的就不一样,这个时候想到的是加速IPO,放开做空机制,去年A股发行上市100家,相比以前是大幅减少的,重点是相对正常市场,这个数量依然不少,毕竟A股退市太少,所以,这种要求加速IPO,放开做空机制的人,一般是没有鼻子两边的人!技术上,前天大盘长阳线,今天出现冲高回落,主要是下周一市场还有不确定性,但目前市场反应的就是下周一最坏的情况,所以,我们还是认为大盘问题不大,整体依然做多为主。