爱吧机器人网 » 技术 > 机器学习 > 正文

从概念上看看智能机器人的新范式:深度强化学习


  近两年机器智能取得重大突破,像围棋九段高手李世石败北Alpha Go,DeepMind团队研发的 机器人 在Atari多项游戏上超越人类水平。这些突破主要得益于从基于深度学习的视觉、语音、语义感知到动作反馈的激励惩罚强化训练模式。本文从概念上分析深度强化学习的要点,部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的报告。 \   强化学习,即机器人根据环境里动作得到的惩罚和激励去自动调整策略。通过训练,机器人学到一组策略:在环境状态S下应采取动作A,(可)能获得最大累积奖励V。 \   强化学习有丰富的交叉学科背景,包括经济学、工程学、神经科学里的博弈论、优化控制,条件反射系统。
  深度学习,使用深度神经网络实现机器人的记忆,视觉感知,语音语义理解和生成。
  深度强化学习以深度学习做感知,强化学习训练策略,并且以深度神经网络作为策略载体。相比于传统的多模块组合,深度强化学习实现了从感知到控制的端到端直接训练,减少了模块间信息损失。
  最近两年在学术理论上,GoogleDeepMind团队在连续性动作控制[2],异步训练[3],训练框架[4],分布式训练[5]等都有重要突破,为 智能机器人 的研发奠定理论和实践基础。
  在特定任务的 应用 上,深度增强学习已有广泛实践尝试,例如流水线机器人。
  在集成应用上,深度强化学习在自动驾驶,聊天机器人[6][7]都有良好的前景。例如,使用分布式训练或异步训练,自动驾驶汽车可以多辆同时在各种环境学习,并且相互交换知识,加速学习过程。聊天机器人可以通过对话过程中用户的反馈来调整自己的语言表达,逐步成长。   深度强化学习为智能机器人提供了新的计算范式:提供环境、激励和惩罚、神经网络结构即可训练得到最大化奖励的智能机器人。

上一篇:运用深度学习教机器人理解自然语言
下一篇:有目标的机器学习太麻烦?图灵学习只靠观察就能学习了
精选推荐

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

研究人员融合人类与AI的创造力 显著提高了深度学习的表现
研究人员融合人类与AI的创造力 显著提高了深度学习的表现

[2019-10-12]  由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族,可以在智能 ...

谷歌在中国成立一个新的人工智能(AI)研究中心
谷歌在中国成立一个新的人工智能(AI)研究中心

[2017-12-13]  谷歌正在中国建立一个新的人工智能(AI)研究中心,希望进一步扩展到中国,以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一,亚马逊,微软......

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

[2017-03-02]   随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中,游戏规则的改变者。 机 ...

顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)

[2017-12-19]  NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习之——正则化

[2018-05-18]  最近在刷李航的《统计学习方法》这本书,在很多算法的损失函数里,都出现类似的描述:损失函数最小化原则一般就是用正则化的极大似然估计进 ...

机器学习算法可预测出乳腺癌治疗率(图)

[1970-01-01]    据外媒报道,患有同种疾病的不同病人在接受同一种治疗方案时,其获得的疗效也会存在不同,这就给医生留下了一个难题:他们怎样才能知道 ...