训练成本有望减半，智元开源机器人数据集|机器人|World_新浪科技

12月30日，智元机器人宣布开源 AgiBot World（智元世界）。智元机器人称， AgiBot World是一个汇集百万真实机器人数据的开源数据集。

根据智元披露内容，AgiBot World包含超过100种真实场景，40%为家居场景，20%为餐饮场景，20%为工业场景，商超和办公场景各占10%。数据集收录了八十余种人类日常生活中的技能，包括抓取、放置、推、拉、搅拌、折叠、熨烫等动作。智元表示，该数据集包含了三千多种物品，80%的任务为长程任务，时长集中在60s-150s之间。

智元机器人表示，相比于Google开源的Open X-Embodiment数据集，AgiBot World的长程数据规模高出10倍，场景范围覆盖面扩大100倍，数据质量从实验室级上升到工业级标准。

开源AgiBot World，智元机器人的一盘大棋布局已久。本次开源的AgiBot World 数据集诞生于空间总面积超过4000平方米的智元机器人数据采集工厂与应用实验基地。在12月中旬智元机器人宣布量产时，智元相关负责人向第一财经记者透露，截至今年年底，智元机器人计划交付962台，主要是用于交互服务和数据采集场景。而智元上海临港量产工厂也在今年10月投产，通过体系化、标准化的机器人生产流水线，能够实现规模化加工生产机器人。

“高质量数据的匮乏，实际上是阻碍当前人形机器人落地的关键卡点之一。”中关村物联网产业联盟副秘书长袁帅告诉第一财经记者，高质量数据语料的喂给，能够加快机器人的自我学习速度。“当前主流的数据训练方式主要是像特斯拉那样真人采集数据训练，或者是利用一些公开资料进行仿真数据合成训练，也就是‘Sim2Real’（从仿真到真机的迁移）。”

一位北京初创人形机器人企业的负责人向第一财经记者透露，后者的成本会比前者少60%甚至更多，但训练效果相差悬殊，“大部分情况下，我们还是需要用人类专家进行二次示范教学”。

英伟达研究中心的高级研究员Animesh Garg曾在采访中提到，特斯拉的人形机器人Optimus 可能需要数百万小时的数据才能完全准备好在特斯拉工厂工作，也就是至少5亿美元的数据采集成本，“但即使这样做，也无法保证成功”。

“机器人技术的发展要落后于其他AI技术，包括当前十分火热的具身智能技术，关键的原因就是优质数据集的缺失。”高工机器人产业研究所所长卢瀚宸告诉第一财经记者，从具身智能机器人能力成长路径来看，优质数据集与基础模型的相互增益构成了“数据飞轮”，即数据集的规模与质量将大大促进基础模型的增益改善。

卢瀚宸认为，开源是一种思路，尤其在一个新兴领域的发展初期，开源可以大大加快行业的发展和迭代速度，同时也可以增加产业链各类角色的参与。

不过，上述北京初创人形机器人企业负责人也向第一财经记者指出，部分企业开源大多还是属于产品销售的配套服务，“比如在售卖机器人本体的时候进行配套的二次开发服务，相比基础的机型，可能价格会上浮100%甚至更多”。

“如果数据足够真实客观，那对于行业来说无疑是一个具有推动意义的举措。”该企业负责人表示，开源非常有利于行业统一标准，减少重复无用功，但数据集的推动作用有多大，还需要在投入实际训练后再进行判断，“从性价比的角度来看，采用真实采集的数据集，相比于人工采集，训练成本预计会降低50%左右”。

卢瀚宸也指出，随着技术的持续发展，企业在开源和闭源的选择上也在发生变化。“基于商业变现的考量，开源和闭源的边界也开始变得模糊。”卢瀚宸说。

值得一提的是，智元机器人是上海市人工智能“模塑申城”实施方案的重要合作伙伴。上海市人民政府办公厅印发的《关于人工智能“模塑申城”的实施方案》指出，到2025年底，建成世界级人工智能产业生态，力争全市智能算力规模突破100EFLOPS，形成50个左右具有显著成效的行业开放语料库示范应用成果，建设3-5个大模型创新加速孵化器，建成一批上下游协同的赋能中心和垂直模型训练场。