中信建投 | 智谱AutoGLM全新升级,从手机到电脑,从生活到生产的超强智能体

中信建投 | 智谱AutoGLM全新升级,从手机到电脑,从生活到生产的超强智能体
2024年12月02日 20:28 中信建投证券研究

重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信建投客户中的机构类专业投资者,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意,感谢您的理解与配合!

于芳博

1.11月29日,智谱在Agent OpenDay上展示了AI Agent领域最新成果,包括AutoGLM、AutoGLM-Web和GLM-PC。智谱对10月份推出的AutoGLM进行了升级,包括跨APP操作、50+步的超长任务、短口令、随便模式等全新功能,让Agent的智能化水平更上一层。

2.智谱还在推出了电脑端GLM-PC和浏览器插件集成的AutoGLM-Web功能。电脑端,可以模拟人类使用电脑的过程,支持会议替身、文档处理和远程操作等功能。在浏览器端,可以模拟用户浏览操作,自动完成网页浏览、信息检索和内容摘要。真正实现了从手机到电脑,从生活助手到生产力工具的跨越。

3.大会现场,荣耀、华硕、小鹏、高通、英特尔等合作伙伴代表也就Agent如何与智能终端产品的结合做了分享。相信AI Agent赋能的原生设备时代即将快速到来。

智谱Agent新进展,更多创新功能带来跨App、跨设备新体验

11月29日,智谱Agent OpenDay上展示了AI Agent方面的最新成果,发布了AutoGLM升级版、AutoGLM-Web、GLM-PC,分别对应手机、浏览器和电脑。智谱在发布会现场表示,即将对十个亿级 App 进行免费 Auto 升级,荣耀、华硕、小鹏汽车等大厂,高通、英特尔等硬件、芯片厂商都介绍了自身与智谱的合作。

三大重磅推出:更强的AutoGLM,网页端的Auto-GLM web以及全新的电脑端GLM-PC。AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务AutoGLM 开启「全自动」上网新体验,支持等数十个网站的无人驾驶像人一样操作电脑的 GLM-PC 启动内测,基于视觉多模态模型实现通用Agent技术探索。

AutoGLM和GLM-PC是智谱在迈向AI操作系统过程中重要的尝试,源于其在大语言模型、多模态模型、逻辑推理和工具使用等方面的技术积累。与OpenAI不同,智谱将大模型的发展规划为五个阶段:L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、L4自我学习能力和L5探究科学规律。自2023年4月的AgentBench项目启动以来,智谱针对AutoGLM和GLM-PC的CogAgent模型研发工作已持续了一年半。

在OpenDay现场,智谱CEO张鹏仅通过下达一个简单的语音指令,便能让AutoGLM完成复杂的操作,这些本来对机器而已相当困难的任务如今已经可以完全由智谱的智能体实现。在OpenDay活动中,AutoGLM成功向在场数百位嘉宾发送了总额达2万元的微信红包。

AutoGLM是智谱GLM的首个产品化智能体,能够通过文字和语音指令模拟人类操作手机,执行如点外卖、订酒店、朋友圈点赞等多种任务。自上个月发布以来,AutoGLM在复杂任务方面进行了明显的升级,包括:

1)超长任务:理解超长指令,执行超长任务。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。演示中,AutoGLM根据任务“小红书查找火锅食材并下单”中,先在小红书搜索火锅食材,然后打开外卖APP,逐个进行添加购买,累积操作步骤在50步以上。图表2是AutoGLM自主执行跨App无中断操作的演示。在从小红书查找食谱到小象超市采购食材的50多步操作全流程演示中,AutoGLM自主完成了以下步骤:1)根据用户需求打开小红书App。2)搜索并提取相关文章及内容,确定食材购买的主要方向。3)自主跨应用打开小象超市App。4)反复执行搜索食品、加入购物车指令,直至满足用户的需求。5)自行结算并提交订单。

2)跨APP:除了上个任务中的跨APP操作,AutoGLM还可以自动打开不同的外卖/购物平台进行比价,在完成打开App、搜索商品、加入购物车等环节之后,AutoGLM还在订单结算前实现了自行比价,帮助用户快速筛选出更具性价比的餐品。这些升级大幅简化了用户在类似应用场景中的操作流程,进一步优化了使用体验。这是上一代产品所不具备的(上次演示中买了一杯18块的瑞幸咖啡)。这种多平台比较的能力,突显了Agent未来成为流量入口的巨大潜力。

3)短口令:与移动平台中的快捷指令类似。用户可以一键保存其自定义的快捷短口令,在触发后,AutoGLM可以自动执行关联任务。

4)随便模式:还有“开盲盒”功能,这是选择困难人群的好助手。AutoGLM会主动跳过对话步骤,针对用户发出的模糊指令自主进行抉择,只有在涉及重要操作(如支付确认)时才会进行二次确认,使用户体验更加流畅。智谱AI还计划将AutoGLM的标准API上线到智谱maas开放平台供试用。这一系列创新使得AutoGLM在日常生活和工作中能够更好地辅助用户。

AutoGLM当前支持的应用包括微信、抖音、小红书、微博等社交平台,以及饿了么、美团等点餐平台,还有淘宝、京东、拼多多等购物平台和12306、高德、百度地图等出行平台。

在网页端,智谱的浏览器插件集成了AutoGLM-Web功能,通过模拟用户的网页浏览操作,包括点击、滚动和文本输入等,自动完成网页浏览、信息检索和内容摘要等任务。

该功能目前适配了多个社交媒体网站,如知乎、微博、X和豆瓣,以及百度、谷歌和必应等搜索引擎,涵盖了百度学术、谷歌学术和arXiv等学术网站,同时也支持GitHub等代码托管网站和各类资讯网站。在这些平台上,AutoGLM能够按照用户指令,自动执行搜索、总结、生成arXiv日报、搭建GitHub仓库和微博签到等个性化功能,使用户操作更加便利。

图表3是智谱浏览器插件在视频网站及社交网站的演示demo。在OpenDay上,智谱浏览器插件在全程没有人工干预的情况下,成功自动完成了以下任务:1)搜索芒果TV。2)打开《小巷人家》。3)播放最新一集。4)发送弹幕打卡。此外,根据机器之心的演示,智谱浏览器插件也可轻松实现自主微博分享。

智谱还推出了基于PC的自主Agent——GLM-PC,智谱称之为在“无人驾驶”PC领域的一次重要技术探索。GLM-PC基于智谱的多模态模型CogAgent,模拟人类使用电脑的过程,即使用眼睛观察图形和文字,用大脑进行规划,再通过双手执行操作,这种方式可以帮助用户更高效地完成各种任务。

目前,GLM-PC已经开启了第一阶段的内测,提供了多项核心功能,包括会议替身、文档处理、网页搜索与总结、远程和定时操作以及隐形屏幕等,同时,GLM-PC还支持搜索、阅读、总结和翻译网页内容。GLM-PC也具备远程和定时操作功能,用户可以通过手机远程指令,让GLM-PC自主完成电脑操作,或设定未来时间在开机状态下定时执行任务。这一功能使得用户可以随时随地控制自己的设备,极大提高了操作电脑的灵活性。

GLM-PC的会议替身功能可以帮助用户高效地预定和参加会议,并自动发送会议总结,这样可以显著节省用户的时间和精力。在文档处理方面,GLM-PC支持文档的下载、发送、理解和总结,使用户在处理文件时更加高效。此外,GLM-PC特别擅长处理办公场景,能够在微信、飞书、钉钉、腾讯会议等多种平台上执行多样化任务,例如发送信息、预定会议和参与讨论。这些功能的整合将GLM-PC塑造为一个强大的办公助手,协助用户在日常工作中提高效率、简化流程。会议替身功能应该是很多金融从业人员的强大工具,如果可以自动接入进门财经/腾讯会议并做会议纪要,甚至替身提问,是对生产力工具的极大提高,在目前的AI应用中还没看到类似的成熟产品,十分令人期待。

图表6是智谱官方宣传片中对于GLM-PC处理具体办公场景的演示。在演示中,虽然视频会议的麦克风和摄像头均处于关闭状态,但通过语音转写功能,Agent可以自动听写并总结会议内容,从而顺利进行会议。随后还展示了GLM-PC对具体公司财报进行总结的过程,通过充分利用PC界面窗口化操作的直观优势,用户只需将文件拖入系统便可实现文字内容的快速整合与格式规范。

从演示中可以发现,GLM-PC基于CogAgent模型实现的具体功能,与Claude基于Computer Use通过鼠标坐标来实现动作的功能存在区别,这进一步反应了不同技术实现之间的差异。通过这些技术的结合,智谱希望能够提升Agent在多种场景下的适应能力和稳定性。

在2024年10月发布之初,AutoGLM的能力仅限于单个应用和短距离任务。然而,目前的最新版本已具备跨应用和长距离任务的执行能力,甚至能够在未接触过的应用中遵循复杂指令进行操作。这一进展标志着智谱在大模型基础技术之外,正在积极构建一个更为完善的系统。与此同时,GLM-PC也展现出几乎与人类相同的电脑操作能力,理论上只要是为人类设计的应用,经过学习后都能够被其执行。这种系统级、跨平台的能力不依赖于HTML或API,使得GLM-PC具备更高的能力上限。然而,由于PC任务的复杂性,用户仍需提供非常精准的指令,这表明在某些情况下,GLM-PC尚未完全取代人工办公。

智谱认为AI大模型正从Chat 走向 Act,未来将由统一的AI智能体来操作各种硬件设备,以提升人机交互效率。随着算力提升,适配AI原生设备的模型和终端-云端协同架构将逐渐出现,各类智能设备如手机、PC、汽车、眼镜及家居等正在快速涌现。智谱也与芯片厂商合作,优化硬件底层,推动AI技术在多个领域的应用,助力智能设备实现互联互通,为用户提供更个性化的智能体验。从智能设备到智能网络,在不久的将来,我们或许能看到 AI 原生设备的无限可能。

北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。

于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。

证券研究报告名称:《智谱AutoGLM全新升级,从手机到电脑,从生活到生产的超强智能体

对外发布时间:2024年12月1日 

报告发布机构:中信建投证券股份有限公司 

本报告分析师:

于芳博 SAC 编号:S1440522030001

海量资讯、精准解读,尽在新浪财经APP
电脑 智能体 中信建投

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-06 蓝宇股份 301585 --
  • 12-02 先锋精科 688605 11.29
  • 11-29 博苑股份 301617 27.76
  • 11-26 科隆新材 920098 14
  • 11-25 佳驰科技 688708 27.08
  • 新浪首页 语音播报 相关新闻 返回顶部