马里兰团队打造辅助喂食机器人,可用于老人进食和儿童保育

马里兰团队打造辅助喂食机器人,可用于老人进食和儿童保育
2024年05月12日 17:30 DeepTech深科技

来源:DeepTech深科技

近日,上海交通大学本科校友、美国马里兰大学博士生刘睿和所在团队,提出了一种适用于机器人辅助喂食的视觉模仿学习方法。

图 | 刘睿(来源:刘睿)

该方法可以有效处理多样化的碗配置和食物类型,即使存在干扰物的情况下也表现出良好的适应性和鲁棒性。

通过在真实机器人上开展实验,验证了本次方法的有效性,模型的成功度量指标最高提高 2.5 倍。

通过此,他们展示了机器人辅助喂食领域的创新性进展,也展示了在模仿学习和视觉感知方面的应用,为机器人技术发展提供了新的参考。

作为一款辅助喂食型机器人,该机器人能应对不同的喂食场景,包括不同容器、不同大小,不同属性的食物,并能满足用户的不同偏好。

同时,它能被用于个人家庭、医院、养老院等。预计机器人有潜力彻底改变辅助服务,包括帮人做家务、辅助喂食、复健等。

(来源:arXiv)(来源:arXiv

预计将能实现以下三大场景:

其一,服务于具有特殊需求的群体。

对于身体残障人士、老年人和行动不便人群,可以通过喂食机器人获得自主性和独立性。

其二,服务于医疗应用的场景。

在医院和康复中心,喂食机器人可以帮助医护人员减轻工作负担,提高患者的营养摄入。它可以精确控制食物分配,定时提醒患者进食,并记录摄入量以供医生评估。

其三,可用于儿童保育场景。

在托儿所和幼儿园,喂食机器人可以帮助保育员更有效地管理多个孩子的饮食,确保他们获得充足的营养,同时降低过度依赖人工喂养的负担。

超数百万成年人需要援助才能实现独立饮食

预计到 2050 年,60 岁及以上的人口数量将增加一倍,全世界的医疗保健系统和社会服务必须适应人口老龄化。

随着人口老龄化,老年人和残疾人辅助喂食的需求变得越来越迫切。目前,有超数百万成年人需要援助才能实现独立饮食,这直接影响他们的自尊和生活质量。

不幸的是,由于医护人员短缺和服务成本高昂,导致难以为所有有需要的人提供护理。

而辅助喂食机器人可以有效减轻医疗保健系统的压力,特别是在医护人员短缺的情况下。

目前,市面上已有的辅助喂食机器人,主要依赖于预编程的启发式方法,无法处理具有不同质地、几何形状、变形特性的食物。

基于此,课题组打算开发一款新型辅助喂食机器人,他们希望该机器人能学习并适应各种不同的容器(碗、盘子)和不同的食物类型,最终改善需要辅助喂食的老年人和残疾人的生活质量。

(来源:arXiv)(来源:arXiv

即使存在干扰物,仍能保持性能

在本次项目之中,该团队的重点目标是实现辅助喂食功能。其中,装有叉子/勺子的机械臂,可以叉取或舀取一部分的食物,并将其转移到使用者的嘴中。

也就是说他们要开发一种机器人喂食系统,利用深度学习技术、并建立新颖的感知策略和学习策略,从而该系统可以处理多种食物,并能提供个性化帮助。

课题组希望实现的是:当机器人遇到看不见的食物时,可以利用人工智能工具(例如 ChatGPT)来获取先验知识,并通过模仿学习或强化学习的方式,使其能够实现成功喂食。

这是一种持续的学习过程,并且可以在机器人和食物之间进行转移。

例如,如果机器人系统已经接受过西兰花的训练,但是没有接受过花椰菜的训练,那么考虑到这两种食物在属性上的相似之处,它就应该传输应对这两种食物的知识。

这就需要整合感知(认识到盘子上的东西是花椰菜)、语义理解(认识到花椰菜和西兰花具有相似的物理特征,因此学习可以迁移)、运动规划(用叉子将花椰菜叉起来)。

与此同时,该团队希望可以让机器人从一小部分人类演示的数据中掌握控制策略,然后将知识转移到之前没有见过的食品上,从而避免收集大量人工数据带来的成本。

研究中,如何获取食物、如何检测用户位置、如何根据用户的偏好和指令做出不同响应、如何安全地将食物转移到使用者口中,都是该团队要考虑的问题。

而在本次项目之中,他们更加关注如何获取食物。因此,如何使机器人能从不同材质、不同大小、不同位置的碗中舀取,包括颗粒状、半固态和液态在内的各种食物类型,并且即使在存在干扰物的情况下也能保持鲁棒性和适应性,是课题组的主要研究目标。

为此,他们设计了一款名为自适应视觉模仿学习(AVIL,Adaptive Visual Imitation Learning)的框架,并开发了空间注意力模块。

AVIL 框架是一个综合型智能控制系统,能用于实现辅助喂食机器人的自适应和智能化。

而空间注意力模块,则是 AVIL 框架中的一个重要组成部分。它通过对环境进行感知和理解,实现对于碗和食物的精准识别和精准处理。

空间注意力模块能以动态的方式,调整图像中不同区域的比重,从而让模型可以集中注意于感兴趣的区域(即碗和食物的位置)。

这样一来,模型就可以准确地舀取位于不同位置、不同大小的碗中食物,并且可以抵抗其他物体的干扰,从而提高模型的鲁棒性。

研究中,他们还采用了一种名为行为克隆(Behavior Cloning)的模仿学习算法,将输入的 RGB 图像和机器人的关节位置,映射到相应的机器人控制动作。

而在数据收集和模型训练阶段,课题组通过 kinesthetic teaching(即人类操作员引导机器人模仿舀取动作)收集数据,并记录 RGB 图像和机器人关节位置,从而用于训练模型。

上述这些数据包括机器人在不同环境下的操作过程、碗和食物的特征、以及人类专家的行为示范等。

完成数据手机之后,他们针对模型开展训练,以便让机器人运动轨迹和人类专家运动轨迹之间的误差达到最小,从而让机器人可以模仿人类专家的行为。

训练过程中,他们不断地调整网络参数,以此来提高模型的准确性和鲁棒性。

完成模型训练之后,该团队又在一款名为 “UR5” 的真实机器人上进行实验,以验证本次方法的有效性。

期间,他们测试了不同材质、不同大小、不同位置的碗,也测试了不同类型的食物包括颗粒状谷物、半固态果冻和液态水。

为进一步验证 AVIL 的有效性,课题组设计了一个 Baseline 的方法进行比较。

Baseline 方法使用 RetinaNet 来进行碗的检测,并能计算碗的中心点,然后指导机器人移动到该位置进行舀取。

实验结果表明:AVIL 在不同碗配置、不同食物类型、不同碗位置的性能比较之中,都比 Baseline 表现更佳。

值得一提的是,即使在没有直接训练的情况下,即零样本泛化情况之下,AVIL 只在一个盛有颗粒状谷物的透明玻璃碗的数据上接受了训练,但它却展示了针对不同大小的塑料碗、和不同食物类型的有效性能。

此外,他们还模拟了存在干扰物的情况,以此来测试本次模型的鲁棒性和适应性。

结果发现:对干扰物 AVIL 同样表现出较好的鲁棒性,即使存在干扰物的情况下也能保持性能。

(来源:arXiv)(来源:arXiv

据介绍,本次研究仅仅关注于如何获取食物。下一步,该团队获奖研究如何将食物安全地送入使用者口中。

此外,其还计划提升本次系统的用户友好度,以满足不同用户的偏好。

并计划通过合作方式,将视觉模仿网络与其他类型的机器人加以集成,从而扩展其应用范围。

此外,课题组还将进一步优化本次模型,使其能够处理更复杂的喂食场景。

参考资料:

1.https://arxiv.org/pdf/2403.12891

排版:刘雅坤

机器人
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片