文 丨 新浪科技 周文猛
期数:No.60
嘉宾:智谱AI CEO张鹏
对于AI Agent的研发布局,正成为国内大模型独角兽企业重点发力的方向。
近日举办的智谱Agent OpenDay上,智谱AI CEO张鹏宣布旗下自主任务完成智能体AutoGLM再次升级,支持自主执行超过54步的长步骤操作,也可以跨App执行任务。据悉,目前AutoGLM已开启大规模内测,将很快面向广大C端用户开放。
在与新浪科技《科创100人》栏目沟通中,张鹏直言,“大模型从对话(Chat)走向操作(Act),从生成式AI迈向代理式AI。”他进一步指出,“当前大模型已经初步具备了人类与现实物理世界互动的部分能力,Agent将极大地提升使用工具能力,同时开启对自我学习能力的探索。”
面对激烈的竞争,他直言,这种竞争一半是商业问题,另一半才是技术策略问题。
“大模型正改变互动方式,让机器来适应人”
在张鹏看来,大模型不只是Chatbot,其本质在于对世界的“理解”能力以及预测能力。基于这样的预判,过去两年,智谱致力于将这种“理解和预测”能力融入各行各业及各种场景,与在场众多客户和伙伴进行了大量实践。
在不断的探索过程中,张鹏发现,如果将大模型“序列预测”的能力拓展至语言文本之外的图像视频,甚至操作序列领域,那AI Agent将成为高效应用的重要形式。“在大模型技术之前,没有任何方法能实现代替人智能地和机器进行交互,过去的键盘、鼠标、多点触控这样的物理交互形式,本质上还是让人来适应机器,如今大模型正在改变这种互动方式,让机器来适应人。”张鹏表示。
他将大模型发展分为五个阶段,分别是:L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、L4自我学习能力、L5探究科学规律。并进一步指出,“发展至今,大模型已初步具备了人类与现实物理世界互动的部分能力,Agent将极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。”
基于以上认知,智谱AI对旗下自主任务完成智能体AutoGLM进行了升级,能够支持自主执行超过54步的长步骤操作,也可以跨App执行任务。此外,智谱还带来基于PC的自主Agent——GLM-PC,面向会议预定、文档处理、网页搜索及远程指令发送等场景进行开启内测,致力于让GLM-PC也能够像人一样操作电脑,完成一系列任务。
“一句话操作电脑和手机的时代,即将到来。”张鹏表示。在他看来,大模型正在从对话(Chat)走向操作(Act),从生成式 AI迈向代理式 AI。对于这一转变可能导致的技术栈能力变化,张鹏认为,“生成式 AI和代理式 AI,本质上没有很大的一个变化,因为它还是在用生成式AI在做任务的规划、理解、执行等过程,但对于开发人员或者复杂系统的研发而言,却提出了一些新的要求。”
“对于复杂系统的开发,以及企业内部如何落地这些技术来说,如果你需要让Agent来调动客户端上人能看懂的东西,希望让他也能看懂,在开发端这些其实是一些API接口,这就是一个新的问题,你内部的数字资产、服务,能够让API很好地去调用去执行。”张鹏认为,这也对企业带出了一些新的要求,需要他们对内部的这些数字资产进行整理,去适应新时代下的这种开发范式调整。
“与大厂的大模型竞赛,一半技术一半商业”
伴随着生成式AI的快速发展,目前国内包括腾讯、阿里巴巴、字节跳动、百度等在内的互联网大厂,也竞相在AI大模型、Agent生态等方面展开布局。面对大厂的竞争,智谱如何考虑自己的定位?在张鹏看来,与大厂们的竞争,一半是商业的问题,一半是技术策略的问题。
从技术上来说,智谱推出的技术和产品,本质是希望能够帮大家更好地去连接,无论连接硬件还是连接应用和服务,它可以说是一种工具,能够让用户通过自然语言的方式,更加容易地去组装各种服务,然后按他们自己的个人意愿去做这件事情。“这件事情背后,技术的问题是非常困难的,要做到有一定智能水平的智能体,它并不是想象中那么简单的事情,这是智谱作为一个大模型公司最有自信的地方。”
而在商业的角度,智谱的思路是“解决问题”。技术本身的很多特点,决定了商业化上的一些路径和策略,其实大模型是一个非常开放性的技术,它创造的是一个新的范式和新的生态。“我们自己的定位是,无论我们提供什么样的技术、产品,我们更多的是探索新的可能性,新的范式。”张鹏表示。
此外,张鹏还进一步指出,人工智能技术的发展,可能不是一个简单的单向问题,我们真的想要AI变成一个生产流程表或者一个软件机器人的话,需要努力的方向是不能有明显的短板。据他介绍,目前智谱已在芯片、操作系统OS 、模型侧和应用App侧,对整个AI大模型及其应用的技术栈进行了全面布局。
在终端层面,智谱已经和荣耀、惠普等手机、PC厂商实现深度合作,在 AIPC、智能助手Agent等领域进行探索。此外,智谱也与高通、英特尔等芯片厂商展开密切协作,联合调教端侧大模型。通过端侧芯片性能优化和端云一体架构,智谱Agent不仅在操作系统OS和应用App上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。
“目前的Agent能力能够帮助用户链接众多应用,未来甚至有望链接所有设备。”在张鹏看来,理论上随着Agent能力持续提升,它们将能够驾驭越来越多的应用程序,适配多样化的操作系统,并执行日益复杂的自主操作。
责任编辑:王若云
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)