爱吧机器人网 » 技术 > 机器学习 > 正文

伯克利最新无模型深度强化学习研究:从零开始训练机器人玩乐高

现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现。然而,众所周知,当与环境的交互时间有限的情况下,无模型方法的表现并不佳,就像大多数现实世界中的机器人任务一样。在本文中,我们研究了如何能够将使用soft Q-learning训练的最大熵策略应用于现实世界中的机器人操纵任务。这种方法之所以能够在现实世界中的应用主要得益于soft Q-learning的两个重要特征:首先,soft Q-learning可以通过学习具有表达性的基于能量的模型所表示的策略(energy-based models),从而学习多模式探索策略。其次,我们展示了通过soft Q-learning所学习的策略可以组成新策略,并且最终策略的最优性可以根据组合策略之间的分歧来界定。这种组合性为现实世界的操纵任务提供了一个特别有价值的工具,其中,通过对现有的技能进行组合进而构造出新的策略,可以在从零开始的训练中提供效率上的大幅提高。我们的实验评估结果表明,相较于以往的无模型深度强化学习方法,soft Q-learning具有更高的样本效率,并且可以对模拟和现实世界的任务执行组合性。

\

我们,使用一种称为soft Q-learning的最大熵强化学习算法,对Sawyer机器人进行训练使其能够将乐高积木叠加在一起。从零开始对一个策略进行训练需要不到两个小时的时间,并且已学习事物策略干扰(左图)具有很强的鲁棒性。我们还展示了该如何将学到的策略组合起来形成新的复合技能,例如在避开乐高积木塔的情况下进行堆叠操作(右图)。

具有表达性的通用目的函数近似器(如神经网络),与可用于获取复杂行为策略的通用目的无模型强化学习算法的交集,有望实现广泛的机器人行为的自动化:强化学习提供了用于推理序列决策的形式主义,而大型神经网络提供了表征,原则上,可以用于使用最少的手工工程来来表示任何行为。然而,经过实践证明,将具有多层神经网络表示(即深度强化学习)的无模型强化学习算法应用于现实世界中的机器人控制问题,这一过程是非常困难的:无模型方法的样本复杂性相当高,并且由于大容量函数近似器的包容性,复杂性还将进一步提高。在以往的研究中,专家们试图通过在多个机器人上并行化学习来缓解这些问题,比如利用实例演示[,或模拟训练,并依靠精确的模型实现向现实世界的迁移。所有这些方法都带有附加的假设和局限性。那么,我们是否可以设计出一种无模型强化学习算法,这种算法能够在不依赖模拟、演示或多个机器人的情况下,直接对现实世界中的多层神经网络模型进行高效训练?

我们假设,基于以下两点性质,最大熵原理可以为实际的、现实世界的深度强化学习提供一个有效的框架。首先,最大熵策略通过玻尔兹曼分布(Boltzmann distribution)表达了一个随机策略,提供了一种内在的、明智的探索策略,它,其能量对应于reward-to-go或Q函数。此分布为所有操作分配一个非零概率,但期望回报更高的操作更可能被采样。因此,该策略将自动把探索引向回报更高的区域。这种特性可以被看作是探索和开发的软组合,在实际应用中是非常有益的,因为它提供了比贪婪探索(greedy exploration)更多的结构,并且正如我们实验所展示的那样,这大大提高了样本的复杂性。其次,正如我们在文章中所展示的那样,独立训练的最大熵策略可以通过增加Q函数而其组合在一起,从而为合并后的奖励函数产生一个新的策略,该策略被证明近乎于相应的最优策略。在实际应用中,控制器的可组合性尤为重要,而这在标准强化学习中是不可能的。在这些应用中,重复使用过去的经验可以极大地提高任务的样本效率(这些任务可以自然地分解为更简单的子问题)。例如,拾取和放置的策略可以分解为(1)到达指定的X坐标(2)到达指定的Y坐标(3)规避障碍。因此,这种可分解的策略可以分三个阶段学习,每个阶段产生一个子策略,而这些此策略随后可以在需要与环境进行交互的情况下进行离线组合。

\

对两个独立的策略进行训练,从而相应地推动圆柱到橙色线和蓝色线。彩色圆圈显示了针对相应策略的圆柱到达最终位置的样本。当策略组合在一起时,生成的策略会学习将圆柱体推到线的下交叉点(绿色圆圈表示最终位置)。没有来自环境的附加样本用于对组合策略进行训练。组合策略学习满足两个原始目标,而不是简单地平均最终圆柱位置。

本文的主要贡献是在最新提出的soft Q-learning(SQL)算法的基础上,提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架。我们证明了,该学习框架为学习各种机器人技能提供了一种有效的机制,并且在实际机器人系统的样本效率方面优于目前最先进的无模型深度强化学习方法。我们的实验结果表明,在很大的程度上,SQL的性能要远远优于深度确定性策略梯度(DDPG)和归一化优势函数(NAF),这些算法过去曾被用于利用神经网络探索现实世界中的无模型机器人学习。我们还演示了对SQL算法的全新的扩展,即利用它对以前学习过的技能进行组合。我们提出了一个关于组合策略和组合奖励函数最优策略之间差别的理论界限,它适用于SQL和其他基于软优化的强化学习方法。在实验中,我们利用最大熵策略在模拟领域和物理领域的组合性,展示了不同技能的鲁棒性学习,并且在样本效率方面超越了现有的最先进的方法。

\

当在Sawyer机器人上进行训练以将其末端执行器移动到特定位置时,DDPG(绿色)、NAF(红色)和SQL(蓝色)的学习曲线。SQL的学习速度比其他方法快得多。我们还通过将期望的位置连接到观察向量(橙色)以训练SQL达到随机采样的末端执行器位置。SQL学会尽快解决这个任务。SQL曲线显示10个轮数中的移动平均值。

在本文中,我们探讨了如何将soft Q-learning扩展到现实世界中的机器人操作任务中,既可以学习单个操作任务,也可以学习能够组成新策略的组合任务。我们的实验表明,本质上来说,soft Q-learning的性能要远远优于无模型深度强化学习。在模拟到达任务中,soft Q-learning具有比NAF更好的性能,其中包括多个策略组合以到达新位置的情况。除此之外,在Sawyer机器人进行评估的真实世界任务的执行中,soft Q-learning的性能上胜过DDPG。该方法具有更好的稳定性和收敛性,并且通过soft Q-learning获得的对Q函数进行组合的能力可以使其在现实世界的机器人场景中特别有用,其中针对每个新奖励因素组合的新策略进行再训练是耗时且昂贵的。

\

在不到两个小时的时间里,就可以学会一个乐高堆叠策略。学习到的策略对干扰聚于很强的鲁棒性:当机器人被推进到一个与典型轨迹完全不同的状态后,它能够恢复并成功地将乐高积木堆在一起。

在研究最大熵策略的可组合性时,我们推导出了组合策略与组合奖励函数的最优策略之间误差的界限。这一界限表明熵值较高的策略可能更容易进行组合。在未来,一项有意义的研究方向是探寻这一约束对组合性的影响。例如,我们是否可以推导出一个可应用于组合Q函数的修正,以减少偏差?回答这样的问题,会使得从先前训练过的构建块中创建新的机器人技能变得更加实际,这使得机器人更容易获得通过强化学习所学到的大量行为。

上一篇:谷歌发布机器学习术语表(中文完整版)
下一篇:入门 | 一文介绍机器学习中基本的数学符号
精选推荐
智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

本周栏目热点

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

机器人是怎么深度学习的?

[2016-03-29]      一个人独处时,感觉有点孤单,怎么办?微软亚洲研究院推出的微软小冰,或许 ...