爱吧机器人网 » 技术 > 机器学习 > 正文

伯克利最新无模型深度强化学习研究:从零开始训练机器人玩乐高

现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现。然而,众所周知,当与环境的交互时间有限的情况下,无模型方法的表现并不佳,就像大多数现实世界中的机器人任务一样。在本文中,我们研究了如何能够将使用soft Q-learning训练的最大熵策略应用于现实世界中的机器人操纵任务。这种方法之所以能够在现实世界中的应用主要得益于soft Q-learning的两个重要特征:首先,soft Q-learning可以通过学习具有表达性的基于能量的模型所表示的策略(energy-based models),从而学习多模式探索策略。其次,我们展示了通过soft Q-learning所学习的策略可以组成新策略,并且最终策略的最优性可以根据组合策略之间的分歧来界定。这种组合性为现实世界的操纵任务提供了一个特别有价值的工具,其中,通过对现有的技能进行组合进而构造出新的策略,可以在从零开始的训练中提供效率上的大幅提高。我们的实验评估结果表明,相较于以往的无模型深度强化学习方法,soft Q-learning具有更高的样本效率,并且可以对模拟和现实世界的任务执行组合性。

\

我们,使用一种称为soft Q-learning的最大熵强化学习算法,对Sawyer机器人进行训练使其能够将乐高积木叠加在一起。从零开始对一个策略进行训练需要不到两个小时的时间,并且已学习事物策略干扰(左图)具有很强的鲁棒性。我们还展示了该如何将学到的策略组合起来形成新的复合技能,例如在避开乐高积木塔的情况下进行堆叠操作(右图)。

具有表达性的通用目的函数近似器(如神经网络),与可用于获取复杂行为策略的通用目的无模型强化学习算法的交集,有望实现广泛的机器人行为的自动化:强化学习提供了用于推理序列决策的形式主义,而大型神经网络提供了表征,原则上,可以用于使用最少的手工工程来来表示任何行为。然而,经过实践证明,将具有多层神经网络表示(即深度强化学习)的无模型强化学习算法应用于现实世界中的机器人控制问题,这一过程是非常困难的:无模型方法的样本复杂性相当高,并且由于大容量函数近似器的包容性,复杂性还将进一步提高。在以往的研究中,专家们试图通过在多个机器人上并行化学习来缓解这些问题,比如利用实例演示[,或模拟训练,并依靠精确的模型实现向现实世界的迁移。所有这些方法都带有附加的假设和局限性。那么,我们是否可以设计出一种无模型强化学习算法,这种算法能够在不依赖模拟、演示或多个机器人的情况下,直接对现实世界中的多层神经网络模型进行高效训练?

我们假设,基于以下两点性质,最大熵原理可以为实际的、现实世界的深度强化学习提供一个有效的框架。首先,最大熵策略通过玻尔兹曼分布(Boltzmann distribution)表达了一个随机策略,提供了一种内在的、明智的探索策略,它,其能量对应于reward-to-go或Q函数。此分布为所有操作分配一个非零概率,但期望回报更高的操作更可能被采样。因此,该策略将自动把探索引向回报更高的区域。这种特性可以被看作是探索和开发的软组合,在实际应用中是非常有益的,因为它提供了比贪婪探索(greedy exploration)更多的结构,并且正如我们实验所展示的那样,这大大提高了样本的复杂性。其次,正如我们在文章中所展示的那样,独立训练的最大熵策略可以通过增加Q函数而其组合在一起,从而为合并后的奖励函数产生一个新的策略,该策略被证明近乎于相应的最优策略。在实际应用中,控制器的可组合性尤为重要,而这在标准强化学习中是不可能的。在这些应用中,重复使用过去的经验可以极大地提高任务的样本效率(这些任务可以自然地分解为更简单的子问题)。例如,拾取和放置的策略可以分解为(1)到达指定的X坐标(2)到达指定的Y坐标(3)规避障碍。因此,这种可分解的策略可以分三个阶段学习,每个阶段产生一个子策略,而这些此策略随后可以在需要与环境进行交互的情况下进行离线组合。

\

对两个独立的策略进行训练,从而相应地推动圆柱到橙色线和蓝色线。彩色圆圈显示了针对相应策略的圆柱到达最终位置的样本。当策略组合在一起时,生成的策略会学习将圆柱体推到线的下交叉点(绿色圆圈表示最终位置)。没有来自环境的附加样本用于对组合策略进行训练。组合策略学习满足两个原始目标,而不是简单地平均最终圆柱位置。

本文的主要贡献是在最新提出的soft Q-learning(SQL)算法的基础上,提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架。我们证明了,该学习框架为学习各种机器人技能提供了一种有效的机制,并且在实际机器人系统的样本效率方面优于目前最先进的无模型深度强化学习方法。我们的实验结果表明,在很大的程度上,SQL的性能要远远优于深度确定性策略梯度(DDPG)和归一化优势函数(NAF),这些算法过去曾被用于利用神经网络探索现实世界中的无模型机器人学习。我们还演示了对SQL算法的全新的扩展,即利用它对以前学习过的技能进行组合。我们提出了一个关于组合策略和组合奖励函数最优策略之间差别的理论界限,它适用于SQL和其他基于软优化的强化学习方法。在实验中,我们利用最大熵策略在模拟领域和物理领域的组合性,展示了不同技能的鲁棒性学习,并且在样本效率方面超越了现有的最先进的方法。

\

当在Sawyer机器人上进行训练以将其末端执行器移动到特定位置时,DDPG(绿色)、NAF(红色)和SQL(蓝色)的学习曲线。SQL的学习速度比其他方法快得多。我们还通过将期望的位置连接到观察向量(橙色)以训练SQL达到随机采样的末端执行器位置。SQL学会尽快解决这个任务。SQL曲线显示10个轮数中的移动平均值。

在本文中,我们探讨了如何将soft Q-learning扩展到现实世界中的机器人操作任务中,既可以学习单个操作任务,也可以学习能够组成新策略的组合任务。我们的实验表明,本质上来说,soft Q-learning的性能要远远优于无模型深度强化学习。在模拟到达任务中,soft Q-learning具有比NAF更好的性能,其中包括多个策略组合以到达新位置的情况。除此之外,在Sawyer机器人进行评估的真实世界任务的执行中,soft Q-learning的性能上胜过DDPG。该方法具有更好的稳定性和收敛性,并且通过soft Q-learning获得的对Q函数进行组合的能力可以使其在现实世界的机器人场景中特别有用,其中针对每个新奖励因素组合的新策略进行再训练是耗时且昂贵的。

\

在不到两个小时的时间里,就可以学会一个乐高堆叠策略。学习到的策略对干扰聚于很强的鲁棒性:当机器人被推进到一个与典型轨迹完全不同的状态后,它能够恢复并成功地将乐高积木堆在一起。

在研究最大熵策略的可组合性时,我们推导出了组合策略与组合奖励函数的最优策略之间误差的界限。这一界限表明熵值较高的策略可能更容易进行组合。在未来,一项有意义的研究方向是探寻这一约束对组合性的影响。例如,我们是否可以推导出一个可应用于组合Q函数的修正,以减少偏差?回答这样的问题,会使得从先前训练过的构建块中创建新的机器人技能变得更加实际,这使得机器人更容易获得通过强化学习所学到的大量行为。

上一篇:谷歌发布机器学习术语表(中文完整版)
下一篇:入门 | 一文介绍机器学习中基本的数学符号
精选推荐
2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

本周栏目热点

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

机器人是怎么深度学习的?

[2016-03-29]      一个人独处时,感觉有点孤单,怎么办?微软亚洲研究院推出的微软小冰,或许 ...