人类与机器的互动方式正在发生范式转变。这是由于只有对话功能的 Chatbot,正在进化为“有手、有脑、有眼睛”的自主 Agent。
作为最早探索 Agent 的大模型企业之一,智谱今天带来了多个新进展: AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务 AutoGLM开启「全自动」上网新体验,支持等数十个网站的无人驾驶 像人一样操作计算机的GLM-PC 启动内测,基于视觉多模态模型实现通用Agent的技术探索 在 Agent OpenDay 现场,AutoGLM 给在场数百位嘉宾发送了「一个来自 AI 的微信红包」,并且手机远程指挥电脑自动发送文件。
而智谱 CEO 张鹏需要做的,只是在现场下达一个简单语音指令。这些原本对于机器而言非常复杂的操作,今天完全由智谱产品化的 Agent 完成。
AutoGLM 新升级:挑战更复杂
新升级的 AutoGLM 可以挑战完成复杂任务:
超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。
跨 app :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。
短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。
随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?
同时 AutoGLM 启动大规模内测,并将尽快上线成为面向 C 端用户的产品。 AutoGLM 同时宣布启动「10个亿级 APP 免费 Auto 升级」的计划,邀请 App 伙伴联合探索自己的 Auto 新场景。
支持核心场景和核心应用的 AutoGLM 标品 API,会在两周内上线到智谱maas开放平台(bigmodel.cn)试用。
Web 端开启「全自动」上网新体验:即日起智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的无人驾驶。在现场demo里,智谱清言插件自动完成了“搜索芒果tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。
GLM-PC 邀测:面向「无人驾驶」电脑的一次技术探索
不只是基于手机和浏览器,今天智谱还带来基于 PC 的自主Agent。GLM-PC 是 GLM 团队面向「无人驾驶」PC的一次技术探索,基于智谱的多模态模型 CogAgent。目前开放第一阶段的内测场景,包括:
会议替身:帮用户预定和参与会议,发送会议总结。
文档处理:支持文档下载、文档发送、理解和总结文档。
网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。
远程和定时操作:远程手机发指令,GLM-PC 可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。
隐形屏幕:在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。
人用电脑的过程——用眼看图形及文字,用脑规划,再用手执行单击双击、输入等操作。GLM-PC 用电脑的方式几乎完全和人一样。也正因如此,理论上只要是为人类设计的应用,在GLM-PC学习之后它都能够执行。这是一种系统级、跨平台的能力,不依赖于 HTML、API,具备更高的能力上限。
不过,由于 PC 的复杂程度,以及大家在 PC 完成的几乎都是复杂任务,坦率的说,今天大模型的能力距离真正代替大家办公还有一定距离。GLM-PC在当前版本下,用户仍需要输入非常精准的指令。
GLM-PC「邀请体验」已开启。我们也会继续努力,在产品完善后尽快上线供所有用户使用,同时也希望和更多厂商联合共创共同探索。
本次公测/内测的三个产品的落地页:
1、清言插件:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
2、autoglm-安卓:https://agent.aminer.cn/
3、glm-pc:https://www.wjx.top/vm/mOs9cHw.aspx
AutoGLM和GLM-PC是我们迈向AI智能操作系统的重要尝试。它们的出现源于智谱在大语言模型、多模态模型、逻辑推理和工具使用等方面的技术积累。从23年4月的AgentBench开始,到8月的CogAgent模型,智谱针对AutoGLM,和GLM-PC的模型CogAgent的研发工作进行了一年半的时间。
与 OpenAI 有所不同,智谱定义了大模型发展的五个阶段:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。
张鹏表示,未来 GLM 团队将继续加速 agent 模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。
大模型从 Chat 走向 Act
如今,大模型技术正在改变机器和人的互动方式,基于理解需求、规划与决策、执行行动和自我反思,Agent 将带来符合直觉的人机交互——从人适应机器,到让机器适应人。
苹果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企业也已经把 Agent 作为 2025 年的主要关注点。业内普遍认为,2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大技术趋势之一,并预测 2028 年至少有 15% 的日常工作决策将由 agentic AI 自主完成,而这一数字在 2024 年为 0。
与 GenAI 不同,Agent 是目标驱动型的,能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端地完成任务。在张鹏看来,Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。
“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”
AI 时代智能设备新范式
随着大模型能力的不断进化,我们慢慢看到AI长出了自己的脑、眼和手。不仅仅是智能在持续增强,感知能力和交互带宽也在不断丰富和拓展,还有现在的 Agent 带来了执行力的加速提升。
智谱 COO 张帆表示,智能设备在大模型的加持下,将会焕发出新的机会。手机+AI 会变成随身个人智能助理,PC+AI 将会成为全新生产力工具,汽车+AI 将会让车成为人们的智能第三生活空间。当然,大模型不仅仅会为手机、PC 和汽车带来机会,而是会惠及各种各样的智能设备。大模型的不断进化已经为 Agent 变革人车交互体验奠定了强大的基础。
随着端侧性能及算力持续提升、为AI原生设备适配的模型和端云同源的协同架构出现,Agent 不仅在操作系统 OS 和应用上实现用户体验变革,还能将其推广到各类智能设备上,从手机到电脑,再到汽车、眼镜、家居和各种 edge side 设备,各种 AI 原生设备正在争相涌现。
荣耀 AI 技术总监王作健、华硕 AIPC 智能生态负责人钟怀圣、小鹏汽车座舱智能语音/智能化业务负责人廉磊、高通 AI 产品技术中国区负责人万卫星、英特尔中国区技术部总经理高宇,作为智谱的客户及合作伙伴,分别从不同的场景出发,分享了他们对智能终端的实践及展望。
大模型和 Agent 的发展不仅为用户带来了AI时代智能设备的新范式,更意味着大模型技术更广阔的落地空间。从智能设备走向智能网络,在不久的将来,我们将看到AI原生设备的互联互通和无限可能。在这个过程中,智谱也将提供一系列的产品和能力,帮助智能设备们拥抱大模型,加速迈向 AI 原生设备新时代。
【免责声明:此文内容为本网站刊发或转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。】
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)