爱吧机器人网 » 技术 > 机器学习 > 正文

配备“一键重置”算法 机器人学习变得更方便

人类在不断为机器人更新换代技术的同时,也赋予了它们自学的能力,而机器人的深度增强学习正如孩子的学习一样,遵循着熟能生巧的规律。每次在操作机器人进行任务的时候,我们都需要先将它之前的设置归零,不过每次这样的操作都是极为漫长的,需要耗费不少的时间。

机器人
 

谷歌大脑、剑桥大学、马克斯·普朗克智能系统研究所及加州大学伯克利分校的研究人员在 arXiv 上联合发表了一篇论文,详细介绍了一种可以让智能体在下一次任务前重置环境的方法,同时还能阻止智能体执行不可逆转行动。

其创新点在于,让智能体在“前进”与“重置”两种策略下同时工作。在前进策略下执行学习任务时,重置策略可以迫使智能体有效地撤消任务,并且“不留痕迹”。机器人会尽可能快地中止被认为是不可逆转的行动。

研究人员希望赋予智能体一种“直觉”:将可逆转事物划分为安全行动类别,因为这样智能体就能回归到原始状态。通过反复实验,智能体发现了越来越多的可逆转性行动,以保证其安全运行。

深度增强学习通常是在模拟环境下进行的,在容错率更低的现实世界中更应如此,比如一辆在悬崖边行驶的汽车。即使是在安全环境下,等待手动重置也将成为数据收集的瓶颈。所以,团队的研究工作仅局限于虚拟环境。但最终,现实世界的测试是必不可少的,智能体也将变得更快、更安全。

正如 Jack Clark 在 Import AI 上所指出的,这篇论文与 Facebook 人工智能实验室(FAIR)上月发表的一篇论文的研究工作产生共鸣。FAIR 的智能体有两个独立的模式,分别是 Alice 和 Bob,他们一个尝试逆转任务进程,另一个则尽力完成行动。这种工作模式让 AI 能够提前规划行动,可以让我们避免未来的灾难性失误。


上一篇:机器学习:人工神经网络ANN
下一篇:机器学习集成算法:XGBoost思想
精选推荐
2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

研究人员融合人类与AI的创造力 显著提高了深度学习的表现
研究人员融合人类与AI的创造力 显著提高了深度学习的表现

[2019-10-12]  由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族,可以在智能 ...

南加州大学机器人学家:机器人更适合粗暴的爱
南加州大学机器人学家:机器人更适合粗暴的爱

[2019-11-07]  图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱,当人类粗暴的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物 ...

美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

本周栏目热点

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

机器人是怎么深度学习的?

[2016-03-29]      一个人独处时,感觉有点孤单,怎么办?微软亚洲研究院推出的微软小冰,或许 ...