3D空间计算是机器人的基本要素,是智能识别、自主决策、精确控制的基础。
本文引用地址:
3D空间计算的关键技术是“3D 视觉+AI”。只有依靠AI 的3D 视觉和强大的算力,才可以支撑开发更智能、性价比更高的新一代机器人应用。
2024 年4 月,芯明副总裁周凡博士在上海“2024中国人形机器人生态大会”上,介绍了该公司在3D 空间计算方面的技术及解决方案。
1 3D空间技术——人机交互的新起点
随着各种芯片、AI 技术的成熟和落地,人机交互的方式也在发生变革,从过去PC 时代到现在的移动时代,操控方式从键盘鼠标,到触摸屏、语音、手势识别等,这些看似小小的改变已为我们的生活方式带来了翻天覆地的变化。
现在我们正处于空间智能的时代——是对我们生活方式的又一场大变革的起点。因为3D 空间计算能够实现真实物理世界和虚拟世界的融合,包括智能设备与真实世界之间的互动。
空间计算概念大概15~20 年前就已经有了,专注人和机器的交互,通过机器操纵真实世界的标的物。为了达到这个目的,芯明深耕3D 空间计算技术。
3D 空间计算技术可用于很多行业,包括人形机器人/自主移动机器人在内的泛机器人、自动驾驶、智能制造以及人们的娱乐社交等,在未来几年会带来翻天覆地的变化。
2 3D空间计算的痛点及解决方案
3D空间计算的基础是机器视觉。因为机器人/ 人形机器人要能去理解真实的物理世界,就需要机器视觉。机器视觉技术已越来越成熟,但还有三个痛点:首先,2D视觉已经无法满足越来越复杂的终端需求,很多行业需要从2D升级到3D。其次,升级到3D 以后,传统的做法是用性能较强的通用芯片或FPGA 去运行软件化的3D 算法。这种方法的优点是灵活性高,但也存在一些缺板:①延时、功耗、系统成本较大。②对于一些较高的性能需求,诸如低延时、高分辨率/ 高帧率,用常规的软件算法或FPGA 很难实现。③随着很多应用对真实世界的感知越来越复杂,这些设备加在一起的价格比较昂贵。第三个痛点是适用于复杂场景的3D 感知设备价格昂贵,传统的多传感器融合会大幅增加系统成本及复杂度。
因此行业的共识是:必须要完成2D到3D的技术升级,最好的方法是3D算法芯片化,因为只有从最底层的芯片去关注需求和进行创新,才能更好地去服务于应用和提高产品力。而且芯片的集成度要高,最好做成单芯片方案,把系统/ 机器人的需求全部在设计芯片时就开始进行考量,这样整体的解决方案才能有竞争力。
3 人形机器人的解决方案
对于人形机器人,芯明的3D 空间计算单芯片解决方案主要是从两个维度来赋能: ①帮助实现具身智能;②帮助实现更多的精细操作。
● 具身智能
对于具身智能,芯明的解决方案主要从两个方面来帮助人形机器人去更好地实现。
首先,芯明专注空间智能技术的创新和研发,能够提供高精度实时的空间计算,帮助机器人更好地去感知周围的真实世界。
在传统的语音、文本和图像等基本模态基础之上,芯明可以帮助加入3D 点云的模态,从而用增强多模态的关键技术,帮助人形机器人提高智能水平和逻辑自洽,以提高机器人对物理世界的理解和判断,实现更好的认知和互动。
现在国内外研究表明,3D 空间多模态大模型实现的难点是需要海量数据用作训练,对算力和训练数据要求非常高。例如,很多机器人,包括训练叠衣服、做饭、倒咖啡等,最缺乏的是一个可以用作训练的数据库。芯明拥有三维空间多模态大模型数据库,借助三维空间数据,大幅降低多模态大模型对训练数据的海量要求,大幅提高训练结果的准确度,帮助大模型的发展摆脱对算力和数据量的过度依赖,帮助机器人针对特定应用来提高训练效果和准确度。
芯明能够提供不同的视觉子系统解决方案,例如有的安装在头部,可做前视和环视,其芯片和模组有很强的边缘计算能力,帧速率、分辨率很高,以帮助机器人在头部对周围的物理世界做3D 感知和理解。
● 更精细的操作
为了帮助机器人做更精细的操作,芯明在机器人的手腕、指尖也有相应的解决方案。例如在指尖,可以提供一个定制化的超短基线的模组。芯明的空间计算技术已应用于牙科的口扫仪(牙医用来扫牙、做牙模等)。把该技术经过优化后,可应用到机器人的指尖,在帮助机器人做精细操作的同时,还能做很精确的物理距离识别和判断。
总之,针对机器人的头、手、腰和手腕,芯明有全套的视觉解决方案,帮助机器人实现更精确的操作。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)