爱吧机器人网 » 技术 > 机器学习 > 正文

开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人

机器学习算法已经在机器人和控制系统领域得到了应用。控制系统社区已经开始对几个机器学习算法表现出兴趣,这些算法来自子领域,如监督学习,模仿学习和强化学习,以实现自主控制和智能决策。在许多复杂的控制问题中,稳定的双足步行一直是最具挑战性的问题。在本文中,我们提出了一个架构来设计和模拟平面双足步行机器人(BWR)使用现实的机器人模拟器,Gazebo。机器人通过学习其中的几个试验和错误来展示成功的行走行为,而不需要事先了解自身或世界动态。使用称为深度确定性策略梯度(DDPG)的强化学习算法实现BWR的自主行走。 DDPG是用于学习连续动作空间中的控制的算法之一。在模拟训练模型后,观察到,通过适当形状的奖励功能,机器人实现了更快的步行或甚至呈现了跑步步态,平均速度为0.83m / s。将双足步行者的步态模式与实际的人行走模式进行比较。结果表明,双足行走模式具有与人行走模式相似的特征。我们的实验视频可在goo.gl/NHXKqR上找到。

\
 
在过去的三十年中,世界各地的机器人研究界对人形机器人领域表现出相当大的兴趣[1] - [3]。引起这种兴趣的主要原因之一是我们人类倾向于与人类实体进行更多的交互或联系[3],[4]。此外,用于穿越不平坦,不稳定地形的腿式机器人领域引起了一些机器人专家的兴趣。双足步行机器人是人形机器人的一种典型分类,在过去的几十年中已经获得了大量的研究成果。类人机器人的腿式运动比传统的基于轮式的机器人具有更好的优势,因为它提供了在恶劣环境中替换或协助人类的可能性[5]。此外,生物学启发的机器人或拟人化的机器人在不同环境中提供更大的适应性,尤其是需要人为干预和需求的机器人[2]。与其他有腿机器人(如四足动物等)相比,在复杂的动态环境中行进时轻松克服随机障碍对于双足机器人来说是有利的[6]。从生物力学研究的角度来看,了解两足动物稳定性和步行机制为更好地理解人类如何从一个地方穿越到另一个地方奠定了重要的基础[7]。人类运动虽然看似简单,但却是一种高度复杂的机动,涉及多个自由度,而这又与由于下半身各种伸肌和屈肌群产生的复杂的非线性动力学相结合。这是正确理解人类运动研究中涉及的生理学的主要动机之一,并在BWR上进行复制[7]。虽然双足行走机器人以其在各种地形上穿越的方便性和灵活性而着称,但稳定性是主要关注点.BWR对控制系统和设计提出了特殊的挑战和关注,主要是由于它们的非线性和不稳定性。完善的经典控制架构不能直接应用。在BWR需要适当的控制策略的动态中,从统计上稳定的双站位置到统计上不稳定的单站位置的离散相变[8]。

\
 
开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人贡献:解决双足行走系统的稳定性问题多年来引起了许多控制科学家的好奇[9],[10]。这些传统的控制理论方法依赖于复杂的确定性和数学工程模型。零力矩点(ZMP)是常规方法之一,被用作BWR动态稳定性的指标[11]。然而,存在与基于ZMP的控制方法相关的某些缺点,其涉及能量低效的步行,有限的步行速度和对外部扰动的差的抵抗[12]。这种方法通常依赖于高水平的数学计算和对机器人和环境参数的完全了解[13],[14]。近年来出现了几种机器学习实践,证明其优于传统的经典系统和控制理论方法,以实现稳定的双足步行。强化学习是机器学习的一个子领域,可以作为复杂控制系统的无模型学习[15]。具体而言,双足行走的无模型学习主要围绕实施基于马尔可夫决策过程(MDP)的多种行动策略学习算法[16],[17]。当在完全可观察的模拟环境中实施时,具有MDP的若干最先进的强化学习算法已经产生了显着的结果[18]。这促使越来越多的计算机科学家和机器人研究人员利用强化学习(RL)方法,让代理人在更复杂和不利的环境中执行动态运动任务[19],[20]。我们在这项研究中的贡献:
 
•建议在Gazebo模拟器环境中实施强化学习算法的框架。
 
•实施基于深度确定性策略梯度的RL算法,实现高效稳定的双足行走。
 
•将双足步行者的步态模式与实际人类的步态模式进行比较。

\
 
人类依靠互动学习,反复试验和错误的小变化,找出哪些有效,哪些无效。让我们考虑一个孩子学习走路的例子。它会尝试各种可能的动作。它可能需要几天才能稳定站立,更不用说走路了。在学习走路的过程中,孩子会因为前进而受到贬低和奖励[8]。这种奖励制度固有地存在于人类中,激励我们采取行动以获得积极的奖励(例如,快乐),并阻止导致不良奖励(例如,跌倒,受伤,痛苦等)的行为。
 
BWR在Gazebo中进行了模拟,Gazebo是一种开源3D机器人模拟器,能够为各种基于机器人的应用重建真实的环境[23]。通过从.sldprt到.urdf格式的文件转换,在SolidWorks中设计的Biped步行器的3D CAD模型被导入到Gazebo模拟器环境中。统一机器人描述格式(URDF)是一种可扩展标记语言(XML)文件格式,用于定义链接并正确组装它们以在Gazebo环境中重新创建和渲染机器人。机器人模型的URDF文件由每个链接的物理属性组成,例如材料,质量,长度和惯性矩。此外,URDF文件中还定义了与Biped步行者关联的每个链接的原点位置(对于每个父对象和相应的子链接)和旋转轴。通过此格式指定用于连接机器人的多个链接的关节类型和位置。表.IV中列出了用于链接连接的不同联合类型。
 
链节的连接顺序如下:地面连接到带有固定接头的圆柱形桩。树桩通过棱柱接头连接到水平滑块,棱柱接头又连接到吊杆。腰部的顶部连接到水平吊杆,该吊杆与双足步行器一起向前和向后滑动,以限制沿矢状平面(即沿Y-Z轴)的运动。与两足步行者相比,动臂的质量可以忽略不计,因此可以忽略不计。忽略了繁荣的可视化,重点关注两足动物步行者与环境的相互作用。除了这些链接外,还在URDF文件中定义了两个接触传感器,每个接触传感器位于每个柄的底部。这是为了在行走时获得与地面接触的瞬间。髋关节旋转,髋关节速度,胫骨旋转,胫骨速度,矢状平面和地足触点的线速度导致状态空间尺寸为12,动作空间尺寸为4。机器人操作系统(ROS)充当控制器脚本和Gazebo之间的接口。状态已发布在各自的主题上,并且已发布操作命令以控制链接。脚本与Gazebo之间的通信速率为50 Hz。

\
 
开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人结果和讨论:本节说明了BWR模拟实现稳定步行步态的结果。在NVIDIA GeForce GTX 1050 Ti图形处理单元(GPU)上训练双足助行器约41小时后,实现了稳定的步行步态。步行者表示连续向前行走10米而没有跌倒。学习过程中每100集的平均奖励如图1所示。
 
髋关节和膝关节旋转值分别如图5和图7所示。将双足行走的结果与使用基于标记的光学运动捕获系统(mocap)捕获的实际人行走数据进行比较。为了捕捉动作,人类主体佩戴了动作捕捉服。标记附在诉讼上,要求受试者按照自己的节奏正常行走。从图6和图8中可以看出,由mocap记录的旋转角度的特征与在双足步行期间获得的旋转角度匹配。髋关节旋转大约异相,膝关节旋转频率是髋关节旋转频率的两倍。
 
使用深度确定性政策梯度(DDPG)在Gazebo环境中的平面双足步行机器人。双足步行机器人的自主行走是通过称为深度确定性策略梯度(DDPG)的强化学习算法实现的.DDPG是连续动作空间中学习控制的算法之一。注意:使用Nvidia GeForce GTX 1050 Ti GPU启用系统训练模型超过41小时后,实现了稳定的双足行走。
 
研究手稿中记录了实验结果:1807.05924v2
 
软件包和平台:ROS Kinetic,Gazebo,TensorFLow(支持GPU)Nvidia GeForce GTX 1050 Ti GPU,OpenAI Gym。
 
walker_gazebo包含机器人模型( .stl文件和 .urdf文件)以及gazebo启动文件。
 
walker_controller包含用于控制双足步行机器人的 DDPG算法的强化学习实现。


上一篇:Judea Pearl:传统机器学习于因果层级底层,达成完备AI的7个工具
下一篇:如何在机器学习项目中使用统计方法的示例
精选推荐
MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

本周栏目热点

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

机器人是怎么深度学习的?

[2016-03-29]      一个人独处时,感觉有点孤单,怎么办?微软亚洲研究院推出的微软小冰,或许 ...