深度 | 智能体打开智驾与机器人的星辰大海——智能体专题报告之一(中银计算机团队)

深度 | 智能体打开智驾与机器人的星辰大海——智能体专题报告之一(中银计算机团队)
2023年12月29日 17:04 市场资讯

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

具身智能由智能体(AI agent)和物理实体(本体)组成。智能体是自主完成设定目标的代理,能迭代学习与环境互动。智能体形式包括自动驾驶汽车、机器人等。大模型AI算力投建之下,智能体有望成为消化算力的杀手级应用。智能体赋能之下,人工代码量能大幅减少并对未预先编程的场景进行操作。

支撑评级的要点

  • 智能体能够以自动驾驶汽车、机器人等多种形式落地,或将诞生生成式AI杀手级应用。智能体(AI Agents)是一个可以通过行动能力自主完成设定的目标的代理,能够不断迭代学习与环境相互适应。智能体与“本体”耦合后,即形成具身智能。根据不同的具身方法,智能体能够以自动驾驶汽车、机器人等多种形式表现。生成式AI经历大模型打磨成熟阶段之后,算力的消化需要市场空间广阔的杀手级应用,智能体有望成为这样的典型应用落地场景。

  • 智能体与物理实体结合,能够大大减少人工代码量并且对未预先编程的场景进行操作。区别于CV、NLP等传统深度学习模型,与“本体”耦合后的智能体不依靠被动数据投喂,能够实现:(1)摆脱传统机器人依靠工程师代码进行控制的模式,以微软《ChatGPT for Robotics: Design Principles and Model Abilities》为例,操控者只需准备好机器人底层的函数库,并将任务目标告诉chatgpt,chatgpt即可自动完成代码并指挥具身智能机器人行动。(2)对从未见过的对象或场景执行操作任务。依托大模型的涌现能力,具身的智能体能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,在仅仅依靠网络数据知识的情况下就可以完成没有预先编程的新场景。

  • 自动驾驶:端到端大模型存在平台级Drive GPT机会。自动驾驶落地进程快于机器人,未来1-3年内L4、L5级别的自动驾驶技术有望实现,而搭载智能体的机器人则会在未来5-10年出现。特斯拉FSD V12采用端到端训练方法,与Chatgpt训练模式类似。相比V11,V12代码量减少99%。同时,端到端相比分模块的技术范式具备更高性能范式。当端到端系统达到与现有技术水平相当的时间点时,将会快速超越传统技术栈。通过对比特斯拉FSD和Waymo,我们认为端到端技术奇点已经临近。

    机器人:生成式大模型有望加快底层通用平台建设,打造Robot GPT需要大模型模拟数据支持。目前针对机器人的不同技能仍需要不同的大模型。而机器人底层平台发展相对落后的原因在于多数研究者仍使用相对落后的ResNet18深度学习架构,而非在生成模型的巨大数据集上进行模型训练。但随着大模型的迅速发展,Robot GPT进程有望加快。打造Robot GPT的关键是解决数据稀缺问题。相比真实数据,仿真数据同样具备完善的数据分布,涵盖common case和corner case,并且能够以较低成本获取数据,从而规避数据隐私和安全问题。

评级面临的主要风险

  • 技术迭代不及预期;数据采集不及预期。

目录

智能体:自动驾驶汽车与人形机器人的智能大脑

智能体不依靠被动数据投喂,具备自主学习的能力

智能体带动机器人实现升维进阶

蓝海市场前景广阔,产业端加速落地

蓝海市场前景广阔,5年市场规模复合增速有望超50%

产业端加速落地,Gemini有望接入机器人

端到端大模型有望打造自动驾驶领域Drive GPT

机器人:海量数据模拟需求有望释放

风险提示

1

智能体:自动驾驶汽车与人形机器人智能大脑

智能体不依靠被动数据投喂,具备自主学习的能力

智能体是自主完成设定的目标的代理,能够不断迭代学习以与环境相互适应。根据MoPaaS 创始人和CEO鲁为民博士在《大语言模型时代的智能体 (I):什么是智能体?》一文中的定义,智能体(AI Agents或 Agents)是一个可以通过行动能力自主完成设定的目标的代理。智能体具备一些类似人的智能能力和行为,比如学习、推理、决策和执行能力。智能体具备感知、观测、决策和执行四大模块,通过反馈来感知环境及其动态变化,并将行动策略反馈作用于环境,以实现不断迭代学习与环境相互适应。

自动驾驶汽车、人形机器人都可成为智能体的载体。根据智元机器人CTO、首席架构师稚晖君的定义,智能体与“本体”耦合后,即形成具备物理实体的、且能够在复杂环境中执行任务的智能系统。其中本体作为实际的执行者(通常是具有物理实体的机器人),在物理或者虚拟世界进行感知和任务执行;而智能体则承担智能核心的作用,负责感知、理解、决策、控制等工作。卢策吾教授在机器之心 AI 科技年会上发表的《具身智能是通往AGI值得探索的方向》中提到,智能体通过感知器和执行器与环境进行交互,能够实现获取信息、理解问题等功能,并根据环境的变化做出相应的决策和行动。根据选择的不同具身方法,智能体能够以机器人、自动驾驶汽车等多种形式表现。

智能体相比传统深度学习模型具有自主学习的能力。CV、NLP等传统深度学习模型主要通过第三视角以互联网图像、视频或文本等数据集进行学习,其训练主要依靠被动数据投喂。而具身的智能体以第一视角进行感知,并与环境交互,不依靠被动数据投喂,具备主动学习的能力以及较强的泛化性。1963年,麻省理工学院教授理查德·赫尔德通过对比实验发现:当猫的脚被绑住放进盒子里时,即使其能正常观察环境,但并不能发育出正常的视觉能力;而另一只可以自由行走的猫在完全相同的环境下,则发育出了正常的视觉能力,因而他认为只有“具身”的训练,才能真正学习与理解外部的环境与信息。

智能体带动机器人实现升维进阶

由智能体赋能的机器人以任务完成为导向,相比传统机器人大大减少了编程的需要。传统模式下,机器人以程序执行为导向,通常需要经过任务定义、将任务分解为动作、编写程序以及执行任务等流程。工程师需要构建高低级指令代码,并且随时更改代码以修正机器人行动,整个过程耗时长且成本昂贵。而搭载智能体的机器人以任务目标为导向,不仅仅是机械地完成程序。具身的智能体可以根据环境变化,对行动细节进行实时修正,其自主学习能力能够消除在特定条件下为特定任务反复编程的需要。

微软在《ChatGPT for Robotics: DesignPrinciples and Model Abilities》中提出,大语言模型(LLM)能给机器人提供常识,非工程师也可对机器人进行控制。操控者只需准备好机器人底层的函数库,并对其进行描述。将任务目标告诉ChatGPT后,ChatGPT即可自动完成代码并应用在具身智能机器人上。以居家机器人为例,设计者只需写出机器人进行物品定位、移动到某一位置、抓取物体以及做饭的函数库,然后告知ChatGPT相应函数的作用以及要到达的目标,ChatGPT就会自动写出相应代码。

搭载智能体后机器人涌现能力显著提升,可完成没有预先编程的新场景。7月谷歌DeepMind推出机器人模型Robotics Transformer 2(RT-2)。RT-2以视觉-语言模型(VLMs)为基础,以Pathways Language and Image model(PaLI-X)和 Pathways Language model Embodied(PaLM-E)为支柱,通过输入图像生成一系列自然语言文本的标记。RT-2可用于执行视觉问答、图像字幕或对象识别等任务。RT-2展现了较好的涌现能力,即从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。

在谷歌具身智能试验中,机器人对从未见过的对象或场景上执行操作任务,在仅依据网络数据知识的情况下,机器人可完成诸如“拿起即将从桌上掉下来的袋子”或“将香蕉移动到2加1的和”等任务。实验结果显示,RT-2对于未曾见过的情景的平均成功率达60%,相比RT-1提升了3倍以上。

2

蓝海市场前景广阔,产业端加速落地

蓝海市场前景广阔,5年市场规模复合增速有望超50%

具身智能体市场空间广阔,5年市场规模CAGR有望超50%。智能体目前仍处于发展初期阶段,其与机器人、自动驾驶、智能传感器和智能设备、增强现实(AR)和虚拟现实(VR)等多个行业相关,市场空间广阔。以人形机器人市场规模进行参考,据Markets and Markets测算,到2028年全球人形机器人市场规模将达到138亿美元,复合增长率预计为50.2%。

政策密集催化。2023年以来,多项智能体相关政策陆续发布。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,提出要探索具身智能、通用智能体和类脑智能等通用人工智能新路径。同期,上海发布《上海市推动制造业高质量发展三年行动计划 (2023-2025年)》,提出要瞄准人工智能技术前沿,建设国际算法创新基地,加快人形机器人创新发展。湖北、深圳、广东等省市纷纷加快布局,促进产业高速发展。政策带动下,智能体产业进入快车道。

产业端加速落地,Gemini有望接入机器人

英伟达推出多模态具身智能系统Nvidia VIMA。英伟达创始人黄仁勋在ITFWorld 2023半导体大会上表示,AI下一个浪潮将是“具身智能”,具身智能将开启新的应用和市场,如智能机器人、智能医疗、智能教育等。目前英伟达已推出多模态具身智能系统Nvidia VIMA,并在NVIDIA AI上运行。Nvidia VIMA能在视觉文本提示的指导下,执行复杂任务,如在虚拟环境中搭建乐高积木、在真实环境中操作机器人手臂等。

谷歌打造“通才”AI模型PaLM-E。3月,谷歌联合柏林工业大学团队发布PaLM-E(Pathways Language Model with Embodied),参数量高达5620亿。PaLM-E是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合,它基于谷歌现有的“PaLM”大语言模型 (类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化”。PaLM-E可以连续观察图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量,使得模型以与处理语言相同的方式“理解”感官信息。同时,PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作。ViT-22B接受过各类视觉任务的训练,如图像分类、对象检测、语义分割和图像字幕。作为多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,还可以执行各种复杂的机器人指令而无需重新训练。

当被要求执行“把抽屉里的薯片拿给我”的任务的时候,PaLM-E首先对机器人相机的数据进行分析,而非对场景进行预处理(消除了人类预处理或注释数据的需要),以实现更自主的机器人控制。随后PaLM-E引导机器人从厨房取出薯片袋,当研究人员从机器人拿走薯片后,机器人仍然能找到薯片并再次抓取它们。

Gemini具备强泛化能力,有望成为机器人智能体。12月6日,谷歌原生多模态大模型Gemini发布。Gemini可泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。它包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的Gemini Nano。其中Ultra版可用于大型数据中心等,属于处理高复杂度任务的模型;Pro版则用于各种扩展任务,属于日常使用模型,目前已搭载于谷歌的对话机器人Bard中;Nano版则是应用于智能手机等移动设备终端上的模型。与BERT等模型相比,Gemini具有更多的参数和更深的网络结构,此外Gemini还采用了更先进的训练方法,例如知识蒸馏和自监督学习等,模型泛化能力显著提升。在GLUE和SQuAD等多项自然语言处理基测试中,Gemini分别取得了94.1%和93.3%的准确率。谷歌人工智能高管哈萨比斯在接受杂志Wired采访时表示,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理互动。

阿里千问大模型有望接入工业机器人。在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露:阿里云工程师正在实验将千问大模型接入工业机器人。接入千问大模型后,在钉钉对话框输入人类语言,操作者即可远程指挥机器人工作。通过钉钉对话框向机器人发送“我渴了,找点东西喝吧。”的指令后,千问大模型在后台自动编写代码发给机器人。机器人对周边环境进行识别,在找到水后,自动完成移动、抓取、配送等一系列动作,并顺利递送给工程师。

国内首款开源鸿蒙机器人发布。12月5日,国内首款可跳跃的开源鸿蒙人形机器人在深圳发布,该款机器人人形机器人KUAVO(夸父)由乐聚自主研发,重量约45kg,全身自由度26个,步速最高可达4.6km/h,快速连续跳跃高度超过20cm,是国内首款可跳跃、可适应多地形行走、并且可实现量产的开源鸿蒙人形机器人。目前,夸父已进入全面量产阶段,并在科研教育和特种作业领域率先实现商业化落地。乐聚机器人也有望因此成为国内首家实现大机器人量产交付单位。

自动驾驶智能体短期内有望快速落地,机器人智能体接力打开中长期想象空间。根据北京智源人工智能研究院院长、北大多媒体信息处理国家重点实验室主任黄铁军在2023 STIC科技创变者大会上的演讲,随着技术迭代速度加快,1-3年内L4、L5级别的自动驾驶技术有望实现,而搭载智能体的机器人则会在未来5-10年出现,并对制造业进行颠覆与替代,同时进入普通家庭To C场景。

端到端大模型有望打造自动驾驶领域Drive GPT

特斯拉FSD V12采用端到端训练方法,与ChatGPT训练模式类似。ChatGPT采用端到端的训练方法,其关键基础是生成式大规模语言模型。ChatGPT以生成式的自监督学习为基础,在大量的未标注文本数据上训练模型,使其能够学习语言的普遍规律和语言结构。而特斯拉FSD V12同样采用端到端训练方法,与ChatGPT技术路径一致。在常规自动驾驶系统开发中,探测、跟踪、静态环境建图、高精地图定位等子模块分别由不同的团队分担,各团队负责各自模块的结果输出,因此各个模块之间存在明显的界限和区隔,使得模块容易存在局部最优,而非全局最优的情况。而端到端的设计则是将各个模块用可微分的方式连接起来,使任务得到了联合和全局优化。除此之外,端到端前期不需海量代码或提前设计规则,只需不断输入人类驾驶数据,系统就能不断更新迭代。

FSDV12神经网络取代传统分模块设计。特斯拉宣布已开始向员工推出完全自动驾驶(FSD)V12版本。特斯拉FSD V12使用全球各地数百万特斯拉车身视频作为训练材料来模仿人类司机的驾驶决策,采用“光子进入,控制输出(photon in, controls out)”。目前常见自动驾驶系统多采用分模块设计,即分为感知、决策、控制三个模块。车辆通过传感器感知周遭环境,确定车辆位置、速度、加速度,并根据识别出来的语义进行行驶路线的规划和横纵向的决策,最后通过转向和制动机构控制车辆行驶,各任务内部采用各自的算法模型,感知、决策与控制之间界限明确。而特斯拉将规划和控制由代码改成了神经网络形式,与感知层的神经网络合并成了一个大网络,仅利用一套神经网络就能处理所有输入信号,并输出驾驶决策。

FSD V12代码量相比V11减少99%。相比V11,V12最主要的更新在于其99%决策都是由神经网络给出,这一更新减少了车机系统对代码的依赖,使其更加接近人类司机的决策过程。这是特斯拉首次放弃代码,使用神经网络进行车辆控制。与V11相比,V11使用超过30万行代码,依靠工程师硬核编码对车辆进行控制。而FSD V12则可通过神经网络控制转向、加速和制动。目前,FSD V12的C++代码只有2000行。

具备核心数据积累,影子模式有望支撑神经网络加速训练。特斯拉影子模式的运作方式是在有人驾驶状态下,运行自动驾驶系统和传感器,系统虽不参与车辆控制,但仍持续进行模拟决策,并把决策与驾驶员行为进行对比。两者不一致时,系统将场景判定为“极端工况”,进而触发数据回传。因而特斯拉的使用用户越多,收集的数据就越多。

大模型的训练依赖海量数据(维权)的提供,提供的数据越多,训练质量就越优异。在特斯拉2023 年股东大会上,马斯克透露FSD 累计行驶里程已经接近2亿英里。据Lex Friedman发布的数据显示,截至2020年1月16日,特斯拉的所有汽车行驶里程达到191亿英里,其中自动驾驶里程为22亿英里。相比之下,同时期Waymo路测里程约为1000万英里,特斯拉于数据储备方面具明显优势。马斯克发现,当输入超过100万个视频后,基于神经网络的自动驾驶系统开始表现良好。目前FSD V12 已使用包含1000万个视频的数据集。并且特斯拉在全球各地近200万辆的车队,每天也会提供约1600亿帧视频用于训练。特斯拉预计,未来用于训练的视频将达到数十亿帧。

奇点临近,端到端系统有望超越现有范式。根据小鹏XPILOT总监Patrick Liu在CVPR 2023上的演讲,分模块的方式允许开发人员以最少的努力快速工作,但通常会导致自动驾驶性能上限为80%,而端到端以全局最优为导向,相比传统分模块的范式具备更高上限。然而在端到端系统起步初期,需要重复多次才能不断突破性能天花板。从图中我们可以看出,当端到端系统达到现有技术水平的时间点后,将会快速超越技术栈。

在8月26日马斯克45分钟直播试驾中,FSD Beta V12在面对之前从未见过的建筑、道路标志时能够进行识别,并轻松绕过障碍物。对于同样未经过编程的环形交叉路口概念,FSD V12顺利完成转弯行驶。只需输入目的地地址,FSD V12就可自动行驶到达目的地,并将车停到合适的位置。YouTube博CallasEV将特斯拉FSD与Waymo进行了长距离驾驶对比。从同一地点出发到同一终点,Waymo全程用时54分42秒,而特斯拉的路线用时仅为26分27秒,用时不到Waymo的一半。

UniAD成为国内首个端到端自动驾驶大模型。6月21日,全球人工智能和计算机视觉领域顶级国际会议CVPR2023宣布由上海人工智能实验室、武汉大学及商汤科技联合发表的论文《以路径规划为导向的自动驾驶》(Planning-oriented AutonomousDriving,UniAD)获最佳论文奖。在UniAD中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到一个基于Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在nuScenes真实场景数据集下,UniAD的所有任务均达到领域最佳性能(State-of-the-art,SOTA),尤其是预测和规划效果方面。其中,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低38%和28%。

机器人:海量数据模拟需求有望释放

机器人领域尚未形成底层通用大模型。根据达闼机器人创始人、董事长兼CEO黄晓庆9月20日在2023亚布力智能制造发展论坛上的发言,Robot GPT是智能制造领域需要的各种垂直的、从事各种生产的通用机器人的大脑,可以传承各种长期积累的工作经验,且不需要人类编程,只需要人类以自然语言的方式来进行记录。但当下机器人在不同的技能情况下仍需要不同的大模型,底层通用平台尚未形成。目前机器人领域主流的具身智能大模型主要包括谷歌PaLM-E、Robotic Transformer 以及LM-Nav等,这些大模型各自针对不同细分场景。

PaLM-E在规划方面优势突出。PaLM-E能够进行长期推理规划,抵抗任务期间可能发生的中断。在处理机器人任务时,PaLM-E获取到用户使用自然语言定义的长期任务目标后,会根据当前机器人的状态和感知信息,生成逐步的低级文本指令,并交由下游控制模块执行。根据每一步的执行结果及场景的变化,机器人会重新对下一步进行规划。在谷歌视频演示中,当研究人员从机器人手中抓取薯片并移动它们时,机器人能够再次找到薯片并抓取它们。

RoboticTransformer主要针对控制场景。RoboticTransformer 2(RT-2)是视觉语言行动(VLA)模型,它从网络和机器人数据中学习,并将这些知识转化为通用指令以控制机器人。RT-2具备较强的思维链能力,可以完成多步骤逻辑推理,能够用复杂文本指令直接操控机械臂,中间不再需要将其转化成简单指令,通过自然语言就可得到最终的行动。在面对图像输入时,RT-2模型在输入图像数据后会首先输出语言规划结果,再把语言规划结果分解成动作,控制机器人完成。RT-2在物流、制造、安保等领域应用广泛。

LM-Nav主要针对导航场景。LM-Nav主要基于大型语言模型(LLM)、视觉和语言模型(VLM)以及视觉导航模型(VNM)。其中VNM负责根据环境中的观测值构建拓扑图,LLM用于提取指令中的地标,VLM对所描述的地标和图像的联合概率分布进行推断。之后系统利用 VLM 的概率分布和 VNM 推断的图连接性,从环境中检索出最优指令路径,并由VNM进行执行。在没有微调的情况下,LM Nav可实现无需对机器人导航数据进行人工注释。

RobotGPT与ChatGPT技术路径相似,生成模型有望加快Robot GPT进程。Robot GPT不需人类编程,只需人类用自然语言的方式来进行记录。根据《RobotGPT: From ChatGPT to RobotIntelligence》,RobotGPT框架图思路类似于ChatGPT:ChatGPT的原理可理解为文字-文字的接龙,而Robot GPT原理是文字/语言/各类传感器接收的信号-动作接龙,两者皆是通过深度学习和强化学习构建端对端AI大模型。

Open AI领投的人形机器人公司1X Technologies AI副总裁Eric Jang在《我们如何让机器人更像生成模型?》中提到,机器人相比生成式模型发展相对落后的原因在于大多数研究者仍在使用相对落后的ResNet18深度学习架构,而非在生成模型的巨大的数据集上进行模型训练。但随着生成模型的迅速发展,Robot GPT进程有望加快。2018年6月,OpenAI发布GPT-1模型,参数达1.1亿。同年11月,GPT-2模型发布,参数提升至15亿。2020年5月,GPT-3的beta版本推出,模型参数迅速提升至1750亿。随后大模型发展开始进入到百花齐放阶段。2021年1月,谷歌推出Switch Transformer,参数量达1.6万亿,是史上首个万亿级语言模型;同年12月,谷歌推出了1.2万亿参数的通用稀疏语言模型GLaM。2022年5月,Meta AI发布超大规模语言模型-OPT-175B,是参数超过千亿级别的开放模型。2023年12月,谷歌Gemini原生多模态大模型发布,模型分为Ultra、Pro和Nano三个规格,目前Gemini Pro模型已整合到Google AI Studio和Vertex AI中,可供企业在开发中使用。

生成模型正逐步运用到机器人大模型中。2023年7月,斯坦福大学李飞飞团队发布VoxPoser系统,将大模型ChatGPT 4+VLM,接入至机器人,可在无需额外数据和训练的情况下,将复杂指令转化为具体的行动规划。在给定环境信息和要执行的自然语言指令后,LLM(大语言模型)直接相应内容编写代码,并将所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应操作指示地图,即3D Value Map,最后,运动规划器合成6-DoF动作,整个流程无需对模型进行任何额外的训练。

打造Robot GPT的关键是解决数据稀缺问题。Robot GPT的泛化能力与LLM大模型的赝本数量直接相关。根据《PaLM-E: An Embodied MultimodalLanguage Model》,谷歌PaLM-E 62B的LLM相对于8B的LLM体现了更好的out-of-distribution泛化性,LLM数据量的提升显著增强了RObot GPT泛化性。目前通过大模型的涌现能力和思维链能力,可以使部分任务零样本学习到,但Voxposer机器人还是局限在桌面上进行操作,如果要实现更广阔空间的扩展,仍需要高质量数据做支撑。

数据仿真有望成为产业突破关键。区别于非具身智能,具身智能需要实际部署到真实环境中,才能够采集数据,但目前探索真实环境成本高昂且需要海量数据。智元机器人CTO、首席架构师稚晖君在接受媒体甲子光年的采访中表示,现在LLM的预训练通常需要web-scale级别的数据,而具身智能的场景更为复杂,数据获取难度进一步加大。而数据仿真具备完善的数据分布,不仅涵盖 common case,同时也涵盖大量 corner case,尤其是现实中获取难度极大,获取代价极高的数据。其数据成本低且可以规避数据隐私和安全问题。根据《Will we run out of data?An analysis of the limits of scaling datasets in Machine Learning》文中预测,2026年文本数据将被训练完,而图像数据将在2040年左右耗尽。根据Gartner的预测,2026年模型训练数据中的50%将由合成数据构成;2030年合成数据的质量将全面超过人类标注的真实数据。数据仿真或将成为产业突破关键。

3

风险提示

1. 技术突破不及预期。智能体在自动驾驶、机器人等领域的落地需要算力、多模态、传感器感知等多领域的协同发展,如果技术突破不及预期,将会影响智能体商业化落地进程。

2. 数据采集不及预期。自动驾驶、机器人底层平台的训练需要大量行业数据的支撑,如果无法高效收集行业数据,将会影响大模型推进进度。

~~~  EOF  ~~~

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-09 腾达科技 001379 --
  • 01-03 云星宇 873806 4.63
  • 01-02 雪祺电气 001387 15.38
  • 01-02 西典新能 603312 29.02
  • 12-29 博隆技术 603325 72.46
  • 新浪首页 语音播报 相关新闻 返回顶部