科技首页创事记互联网电信 IT业界投稿

25分钟训练机器人学会6个动作，伯克利开发高效机器人操纵框架

2021-01-03 12:29:07 创事记作者：量子位

　　欢迎关注“创事记”的微信订阅号：sinachuangshiji　

　　文/蕾师师

　　来源：量子位（ID:QbitAI）

　　这个机械臂正在完成够、拿、移、推、点、开等6个动作。

　　而且动作娴熟，还不存在失误。

　　更令人意外的是，训练这个机械臂，只花了短短25分钟。

　　即使有人为干扰，它也能够成功完成抓取动作。

　　还能抓起以前没有见过的物体形状。

　　这就是来自加州大学伯克利分校的一项新研究——高效机器操作框架Framework for Efficient Robotic Manipulation（FERM），专门对机械臂进行高效率操作的算法训练。

　　FERM为什么比其他方法效率高?

　　目前来看，大多数针对机器人训练的的RL算法效率都不是很好。

　　采用稀疏奖励的方法训练Dota5游戏的人机操作，使之成为达到人类玩家的高手水平，需要花180年的游戏时间。

　　训练一个机械臂的手势，则需要上千万的模拟学习的样本和两周的训练时间。

　　Sim2Real和模拟学习这两个方法稍微好点。Sim2Real需要接受模拟训练，再将训练结果运用到现实事例中。

　　模拟学习则需要通过一系列的专业训练示范案例和监督学习，才能得出最后的训练策略，实验结果非常依赖于输入示范案例的质量。

　　FERM优势在于，既没有依靠模拟训练转换到现实，也不用高度依赖于输入的示范案例的质量。

　　而是基于非监督性表征学习和数据扩张技术，使用了pixel-based RL。

　　因此，它仅仅需要10个Demo，25分钟的训练时间，就可以让机器人学会六个动作。

　　FERM具体怎么训练？

　　FERM采用了基于像素的强化学习（pixel-based RL）方法。

　　具体而言，先收集小部分演示数据，并且将这些数据存放在“回放缓冲区”上。

　　然后，用观察结果结合对比损失量，来对编码器进行预训练。

　　而后，编码器和“回放缓冲区”运用一种线下的数据来加强RL算法，对RL智能体进行训练。

　　在论文中，研究人员总结了FERM主要优点：

　　1、高效率：FERM可以学习6种不同操作任务的最优策略，在15-50分钟的训练时间内完成每项任务。

　　2、简单统一的框架：框架结合现有的组成部分，将无监督的预训练和在线RL与数据扩充成一个单一高效的框架。

　　3、常规轻量设置：实施起来只需要一个机器人、一个GPU、两个摄像头、几个演示，以及稀疏奖励函数等等。

　　具体的实验结果如何？

　　实验结果

　　这项实验采用像素观察的方法执行了一系列任务。下图的每一栏显示了初始、中间、结果等三个状态。只有当机器人完成任务时，才会获得稀疏奖励。

　　这个训练算法的效率可谓很高了。具体完成时间如下图表格所示，在30分钟左右，它就可以让机器人学习操作任务。而简单的“够”（Reach）动作，则只需要三分钟。

　　实验结果称，它不需要很多的Demo，也不需要到大量的设备，首次完成任务的平均时间为11分钟，并且可以在25分钟内训练出6个机械动作。

　　所以研究人员骄傲地说：

　　“据我们所知，FERM是第一个能在不到一小时的时间内，能通过像素点直接完成来自不同组、采用稀疏奖励方法的机器操作任务。”

　　而根据相关报告，未来十年，制造业将需要460万个岗位。许多制造商也都在转向自动化生产，机械自动化将占比越来越高。FERM这样的高效训练框架，可谓是制造业福音。

　　参考链接：

　　https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/

　　论文地址：

　　https://arxiv.org/abs/2012.07975

　　源代码：

　　https://github.com/PhilipZRH/ferm

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

作者简介

量子位

关注前沿科技资讯，追踪人工智能动态。

作者文章

人脸识别“抓”错了人，他在监狱呆了10天

一个酒店偷窃案件，嫌疑人驾车逃逸。警察没有验指纹、没测DNA，仅靠人脸识别系统，就锁定了“罪犯”——Nijeer Parks（帕克斯）。

详细>>

25分钟训练机器人学会6个动作，伯克利开发高效机器人操纵框架

微博推荐

作者简介

量子位

作者文章

人脸识别“抓”错了人，他在监狱呆了10天

推荐阅读

新闻热榜