从传统的 AI Agent,迈向个人基础智能体 Personal Foundation Agent。
整理 | 连冉编辑| 靖宇
2024 年被业界视作 AI 应用之年,在即将到来的 2025 年,Agent 则被广泛看好。上周,谷歌正式发布其最新 版大模型 Gemini 2.0 系列,并表示这是他们迄今为止最强大的人工智能模型,「专为 Agent 时代设计」。如何将「智能体」作为打破传统人机互动局限的核心驱动,成为业界热议的核心问题。
在极客公园 IF2025 创新大会上,无界方舟(AutoArk)创始人兼 CEO 曾晓东在《除了找 AI 做「情侣」,AI 还能做什么?》 主题演讲中,深入探讨了 AI Agent 的未来发展方向,尤其是如何通过基础智能体(Foundation Agent)推动 AI 从单一任务助手向个性化、情感化的智能伙伴迈进。
从最初的 AlphaGo 到如今的大型语言模型,再到垂直领域的专业化智能体,AI Agent 的功能和应用范围正在迅速扩展。然而,随着 AI 技术进入个人生活领域,智能体不再仅仅是完成任务的工具,也越来越成为理解用户情感、满足个性化需求的核心伙伴。
在交互、记忆和技能等关键领域,如何实现低延迟、带视觉理解、高情感互动的实时反馈,如何构建个性化的记忆系统,如何在虚拟与物理环境都具备鲁棒的执行能力,成为智能体进化的重要挑战。
曾晓东介绍的「个人基础智能体」概念,正是基于此背景而提出。他强调个人领域的 AI Agent 不仅是解决单点问题的助手,更是用户的长期伙伴,个性化满足生产力和情感陪伴的需求,使 AI 能够真正理解和融入用户的生活与工作。
同时,曾晓东指出,个人领域的AIAgent,将不止存在于现有的手机、电脑,还会存在于越来越多的新型硬件终端。所以,无界方舟的探索不仅涵盖了技术方面的突破,也孵化了基于自研技术优势的硬件产品,将于明年发布的智能机器人「阿奇」,也是这一理念的体现。
在这一全新的 AI 智能体蓝图下,曾晓东和无界方舟团队的技术探索正加速落地,未来的 AI 产品或许将成为每个人生活中不可或缺的个性化伙伴,进一步推动人机交互迈向更高的智能化、情感化层次。
在曾晓东眼中,无界方舟的专业领域智能体方案,也将为企业级市场带来前所未有的机遇。AI Agent 可谓应运而生,通过与行业专家的互动逐渐学习和优化,从而为企业业务流程的数智化转型铺平道路。
新的一年即将到来,AI 产业的下一个阶段也将拉开序幕。预计到 2025 年,AI Agent 的应用市场将达到数百亿美元规模,2025 年有望成为 AI Agent 商业爆发元年。
以下为曾晓东在极客公园 IF2025 创新大会的演讲实录,由极客公园整理。
01
AI Agent是如何发展的?
曾晓东:大家下午好!我是无界方舟的创始人曾晓东。
在过去两年多的时间里面,我跟我的团队一直在坚持一个方向——AI Agent,我们目前正在从传统的 AI Agent 迈向基础智能体(Foundation Agent)。
我们可以先从实践的路径看一下 AI Agent 的发展路线。
其实 Agent 在近 20 年来,第一次出现在人类视野的是 AlphaGo,在强化学习方面,用 Agent 在大量棋局中跟环境做互动,学会下围棋这个任务。但这些 Agent 都只会处理单一任务,所以在 AlphaGo 之后,Agent 在很长一段时间没有受到更多关注,直到大模型的出现。
以语言基础模型举例,它可以处理许多任务,包括中长尾的任务。在 LLM 上很快长出了不少基础 Agent 框架,我们也看到很多 Prompt Agent 的出现,也就是通过写 Prompt 给 Agent 一定的角色,包括给它配置一些可调用的工具。据不完全统计,目前全球有超过 70 多万 Prompt Agent 应用。现在只要大家打开任何一个大模型的 App,一定会有一个 Tab 是关于智能体的。这些 Agent 我们统称为 Prompt Agent 或者 Baby Agent,因为它们本质上依然是大语言模型的某些通用能力,只是通过写 Prompt 的方式将其功能具象化。
我认为AIAgent 在未来会有两个深水区:专家 Agent 和 个人 Agent。
当 Agent 进入第一个深水区,垂直领域,就需要专业度更高的 Agent。直接套用通用模型的 Prompt Agent 无法满足垂直领域要求的专业度,在以往的专业案例中,通用模型在垂直领域的任务通过率往往不足 50%。所以我们需要专家 Agent,将模型与垂直领域数据、专业业务流程做深度耦合,形成专业度极高的 AI Agent。
针对高度复杂的任务,我们甚至可以组建一个多智能体团队,去解决特别难的命题。这里举一个产品案例,是我们在上半年推出的产品,来攻克医药研发领域的难题。在该产品中,我们有 18 个专业化的 Agent,每个 Agent 背后的模型是不一样的,18 个 Agent 可以相互进行自然语言沟通、写代码、调用医学工具和模型、自动纠错等,去处理高度复杂的问题。
对于专家 Agent 这个层面来说,能够产生商业模式的关键,是 Agent 在该垂直领域的专业度。无论采用的是单智能体方案,还是多智能体方案,都要有效起到理想的降本提效作用。
当 Agent 进入第二个深水区,个人领域,它除了能帮助用户提升生产效率,还会提供更多情绪价值。个人领域 Agent 不只存在于手机或电脑,还会搭载于更多终端,比如眼镜、智能音箱、未来的人形机器人,还有更多新型的智能硬件。这其中存在着非常大的 GAP,无论是硬件 AI 产品,还是软件 AI 应用,基础模型与应用之间仍存在着许多核心问题待解决,比如说交互体验、个性化的记忆、执行能力等等。
我们团队在过去很长时间,都在探索个人领域到底需要怎样的 Agent?我们认为,个人领域需要的绝不是传统意义的 Agent,而是基础智能体,我们给它一个新的名词叫作Personal Foundation Agent(个人基础智能体)。
02
基础智能体三要素:交互、记忆、技能
个人基础智能体的背后有三个基础能力,我们要把它做到高水位,这样个人化应用的落地才会变得更加快捷。
第一个维度是交互,不只是文本的交互,还包括语音、视觉理解的实时交互。
第二个维度是记忆,个性化的记忆,基础模型之外的记忆系统应该如何去搭建。
第三个维度是技能,也就是 AI Agent 的执行能力。
如果我们把这三个要素画在同一个坐标系中,我们刚才所看到的不管是 AlphaGo 、Prompt Agent,还是专家型的 Agent,它们都处于坐标系的左下角,而我们的目标是要做一个位于坐标系右上角的个人基础智能体,难度极高。我们在过去两年多的时间,在每个维度都取得了一些阶段性成果。接下来我会一一为大家介绍。
我们先看交互这个维度。在做一款个人 AI 应用时,不管是软件类的,还是硬件类的,在许多场景,需要的不仅仅是 LLM 纯文本交互能力,而是拟人且实时的语音、视觉理解互动能力,也就是下图中间部分的交互能力。
传统方法一般是用「三段式」的串行链路来实现音视频交互,也就是先接一个语音识别 ASR、再接一个大模型 LLM、最后衔接一个语音合成服务 TTS,但这种方式有三个致命问题:1)延迟很高;2)交互僵硬;3)没有情绪。
我们举几个常见的 Case,比如市面上的各种语音互动玩具,它的反馈延迟大概是 6 秒,这是用传统的「三段式」链路通常会遇到的问题。它的交互不是开放式的,不能随时通过语音打断,许多产品都需要按住物理按钮才能对话,这些都导致了产品体验不佳,退货率极高。
除了「三段式」链路,还有一种方式——端智能,为了降低交互的延迟,把模型压缩部署到端侧。但它会有两个很严重的问题:一是耗电,哪怕把模型压缩到 2B 或者 0.5B,对话几轮就会掉一格电,显然无法满足商业需求;二是偏小的模型,它的智力水平会下降非常多。虽然端侧模型是一个很好的方向,但短时间之内如果要做商业化产品,这并不是一个很好的选择。
那么,Agent 的交互能力到底需要达到什么水平呢?我们需要的是完全开放式的、延迟非常低、带视觉理解能力、情绪表达很丰满、可以驱动软硬件载体的AIAgent。
由于市面上没有现成模型能够直接套用,我们自研摸索出一套理想的解决方案。
第一,它是云端的,还是比较大的模型,但这个模型一定是端到端、多模态的模型,这样它的延迟才会降到很低,情绪也会非常饱满,容易控制。
第二,我们需要一条传输链路 WebRTC,相当于我跟AI做视频聊天,视频流、音频流会不断往云上传输。这里最难的是模型,本质上多模态的端到端模型,它的算法架构不会很难,难点在于它的数据来源。因为需要用音频到音频、音频图片到音频的数据,如果找人打标或做录制,成本会非常高,所以我们前期花了很多功夫在合成数据上。
通过以下视频,我们可以看到目前模型的效果。在实时音视频下,可做到 400 毫秒极低延迟反馈,展现出较高的智商、情商,有丰富的情绪表达,有 21 种多语言能力,可驱动虚拟形象和硬件的动作。
无界方舟在极客公园 IF2025 展会现场的实拍录像|视频来源:无界方舟
我们认为应用多模态、端到端的模型,是做好AI实时交互的必经之路。除了刚才介绍的特性以外,还有更多延展性。
这是我们目前正在做的两个探索型项目,对齐的是其他模态。比如左手边这个对齐的是宠物语言,当然不是真正的宠物语言,是训练师对狗狗叫声的理解;右侧是我们跟脑机接口的厂商正在做的探索项目,目前有一些初步的结果,脑信号可以跟文字进行 Alignment。
我们再来看个人基础智能体的第二个维度,个性化记忆。传统大模型的记忆是比较简单的,或者是用简单的向量数据库把上下文储存下来。我们认为 AI 与人的很多交互片段需要一个完整的记忆系统去构建,业界目前正在往这块做深耕,有很多记忆型的产品。
对我们来说,我们希望去构建一个单独的记忆层——AutoMind。在这个记忆层里,我们分两种格式记录记忆,其中一种是存储型的,比如用知识图谱、参数化记忆。
这个产品界面,展示了我同事过去三个月跟 AI 互动的所有信息和记忆片段。这个模型会为每个用户构建 AutoMind 记忆系统,结合我们的大模型,它的回答会高度个性化。在我们开源的工作中,我们甚至可以将记忆系统放在端侧,这样它可以实现完全的隐私保护。
第三个是整个 Personal Foundation Agent 中最难的维度,Agent 的技能。
我们尝试去找到一条路径,可以让 Agent 在少量的样本数据或事例中,学会虚拟操作或硬件操作的技能。
我们最近有一份工作成果很快就会开源,叫作 Action Q。我们本质上是希望让 Agent 学会写一段代码,这个代码是跟技能相关的,会有很多路径的探索、试错,不管是操作网页、玩游戏,还是具身智能的硬件驱动,它都可以学会正确的路径。
03
基础智能体的产品与应用
我们目前距达成个人基础智能体(Personal Foundation Agent)还有一段路要走。在未来,我们除了持续深耕交互、记忆、技能这三个维度的技术能力外,还会孵化一系列搭载个人基础智能体的新型硬件产品,牵引个人基础智能体技术的应用迭代。
这里我想特别介绍一款硬件产品,它叫「阿奇(Arki)」,非常可爱。它有两种 AI Agent 形态,一种是通过手机 App 直接体验,我可以让它帮我解决工作、生活上的问题;另一种是把手机放到底座上,它就会变成一个具象的机器人,可以有各种硬件动作的交互。目前「阿奇」还没有量产上架,我们通过它向大家展示我们自研的模型技术能力。
此外,我们也正积极寻求与行业优秀伙伴的合作机会,在更多实际应用场景中,融入并发挥我们个人基础智能体的优势。
最后,我想表达的是,随着 AI 技术不断融入我们的生活,智能体的角色正在发生深刻的变化。它们不再只是冷冰冰的任务执行者,而是逐渐成为能够理解我们情感、提供个性化服务的温暖伙伴。
「个人基础智能体」这个概念,正是基于这样的背景而诞生的。它强调 AI 不仅要解决实际问题,更要通过陪伴提供情绪价值,使 AI 真正成为理解和融入用户生活的伙伴。无论是我们将在明年推出的智能机器人「阿奇」系列,还是与合作伙伴们共同孵化的产品,都是在践行这一理念。
与之对应的,「企业专家智能体」也不再是一个遥不可及的概念,而是一个正在被积极应用的技术解决方案。AI Agent 助力医药、医疗、金融等专业领域降本增效,重塑企业内外部的互动方式,赋予千行百业新的生存和发展空间。
随着技术的不断进步和应用的持续深化,我们期待着 AI 迈向更高的智能化、情感化层次,这也将为商业领域带来前所未有的机遇和挑战。我们有理由相信,AI Agent 的市场规模将在 2025 年后迅速增长,引领我们进入一个更加智能、人性化的商业新时代。
*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你认为个人基础智能体,
是不是 Agent 的未来?
天赋觉醒!宇树发布 B2-W 工业轮足,最新演示视频。
点赞关注极客公园视频号,
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)