分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏-神经网络-技术-爱吧机器人网

分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏

2018-06-20 arXiv、机器之心浏览量：

在深度强化学习中，大型网络在直接的策略逼近过程中，将会学习如何将复杂的高维输入（通常可见）映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时（如玩 Qbert 游戏），学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息（特征），这些底层网络将像素映射为中间表征，而最后（几）层将表征映射至动作。因此这些策略与中间表征同时学习得到，使得独立地研究策略几乎不可能。

将表征学习和策略学习分离方能独立地研究二者，这潜在意义上能够使我们对现存的任务及其复杂度有更清晰的理解。本论文就朝着这个目标前进，作者通过实现一个独立的压缩器（即特征提取器）将特征提取和决策分离开来，这个压缩器在策略与环境互动中所获取的观测结果上进行在线训练。将网络从构建中间表征中解放出来使得网络可以专注于策略逼近，从而使更小的网络也能具备竞争力，并潜在地扩展深度强化学习在更复杂问题上的应用。

该论文的主要贡献是提出一种在复杂的强化学习设置中同时又独立地学习策略特征的新方法。这通过基于向量量化（Vector Quantization，VQ）和稀疏编码（Sparse Coding，SC）的两种新方法来实现，研究者将这两种方法分别称为「Increasing Dictionary VQ」和「Direct Residuals SC」。随着训练继续、网络学习到更复杂的策略，网络与环境的复杂互动带来更多新的观测结果；特征向量长度的增长反映了这一点，它们表示新发现的特征。类似地，策略通过可解决维度增加问题的指数自然进化策略（Exponential Natural Evolution Strategy）进行训练。实验结果显示该方法可高效学习两种组件，从而仅使用 6 到 18 个神经元（神经元数量比之前的实现少了两个数量级）组成的神经网络就可以在多个 ALE 游戏中获得当前最优的性能，为专用于策略逼近的深度网络研究奠定了基础。

图 1：系统图示。在每个生成阶段，优化器（1）为神经网络控制器（3）生成权重集合（2）。每个权重都是偶发地（episodically）通过环境进行评估（4）。在每一步，环境将观测结果（5）发送到外部压缩器（6），压缩器生成紧凑编码（7）作为网络输入。压缩器为训练集（9）选择观测结果（8）。在该 episode 结束时，环境向优化器返回适应度分数（累计奖励，10）进行训练（神经进化，11）。压缩器训练（12）发生在生成阶段。

3 方法

该系统包括四个主要部分：1）Environment（环境）：Atari 游戏，采取动作、提供观测结果；2）Compressor（压缩器）：从观测结果中提取低维代码，同时系统其他部分执行在线训练；3）Controller（控制器）：策略逼近器，即神经网络；4）Optimizer（优化器）：学习算法，随着时间改进网络的性能，在本研究案例中优化器采用的是进化策略。

图 2：训练中心点。在 Qbert 游戏运行期间，使用 IDVQ 训练多个中心点。注意第一个中心点如何捕捉游戏的初始状态（背景），其他中心点将特征构建为后续残差：发光立方体、avatar 和敌人。

5结果

研究者在 10 个 Atari 游戏上展示了对比结果，这十个游戏选自 ALE 模拟器上的数百个游戏。选择结果依据以下筛选步骤：1）OpenAI Gym 上可获取的游戏；2）与 [210, 160] 具备同样观测分辨率的游戏；3）不包含 3d 视角的游戏。

表 1：本研究提出方法在 Atari 游戏样本上与 HyperNeat [HLMS14] 和 OpenAI ES [SHC+17] 的对比结果。所有方法都是从头开始在原始像素输入上训练的。HyperNeat 列的结果使用的网络具备一个包含 336 个神经元的隐藏层。OpenAI ES 列中的结果使用两个包含 64 个神经元的隐藏层。IDVQ+XNES 列的结果未使用隐藏层。列 # neur 表示单个（输出）层中使用的神经元数量。粗体数字表示设置条件下最好的分数，斜体数字表示中间分数。

论文：Playing Atari with Six Neurons

论文地址：https://arxiv.org/abs/1806.01363

摘要：Atari 游戏上的深度强化学习直接将像素映射至动作；本质上，深度神经网络同时负责提取有用信息和基于此进行决策。为了设计专用于决策的深度网络，我们提出了一种新方法，独立但同时学习策略和紧凑状态表征，以得到强化学习中的策略逼近。状态表征通过基于向量量化和稀疏编码的新算法生成，状态表征与网络一道接受在线训练，且能够随着时间不断扩大表征词典规模。我们还介绍了允许神经网络能和进化策略处理维度变化的新技术。这使得仅包含 6 到 18 个神经元的网络可以学习玩 Atari 游戏，性能可以达到甚至偶尔超过在大两个数量级的深度网络上使用进化策略的当前最优技术。

精选推荐

深度神经网络揭示了大脑喜欢看什么

[2019-11-06] 爱吧机器人网编者按：近日，《自然-神经科学》发表了一篇论文，研究人员创建了一种深度人工神经网络，能够准确预测生物大脑对视觉刺激所产 ...

可编辑神经网络，有望简化深度学习？

[2019-10-04] 深度学习是一个计算繁重的过程。降低成本一直是 Data curation 的一大挑战。关于深度学习神经网络大功耗的训练过程，已经有研究人员 ...

什么是机器人学？机器人学简介

[2017-12-14] 机器人学是工程学与科学的交叉学科，包括机械工程，电气工程，计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用，以及用于控制、感官反馈和信息处理的计算机系统。...

智能机器人困惑的时候知道该问什么问题

[2017-03-20] 照片：Nick Dentamaro 布朗大学上周，我们提到了麻省理工学院的一些研究，即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

机器人从工业走向家庭库卡KUKA目标是引领中国市场

[2017-12-08] 机器人正在改变着人们的生活方式，而库卡KUKA想要在中国这个大蛋糕中占有一块大份额，库卡公司正在引领市场...

集群机器人领域最新研究：一种用于探测未知环境的微型无人机群

[2019-10-26] （图：无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向，它将试图飞到另一个方向。若首选方向冲突，低优先 ...

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05] 莱布尼茨，德国哲学家、数学家、律师，历史上少见的通才1666年，德国博学家戈特弗里德·威廉·莱布尼茨（Gottfried Wilhelm Leibniz）发 ...

机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25] 计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特（Robert Platt）说：“机器人手操作是下一步要解决的问题。想象一下，一个机器人可以在现实世界中用手去做事......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

神经网络：人工智能以及我们的未来

[2016-11-20] 作者：James Crowder翻译：王益军审校：心原文链接：techcrunch把自己想象成在一辆未来的自动驾驶汽车的乘客。这辆汽车与你以一种 ...

改进的BP神经网络算法(C语言源码)

[2016-11-20] include "stdio h" include "stdlib h" include "time h" include "math h" *********************************************i ...

OpenAI开辟全新AI音乐领域，发布Jukebox神经网络生产歌曲

[2020-05-19] 日前，外媒报道，人工智能（AI）技术生成的音乐会给人们带来非常奇妙体验。其中有两大原因，第一，这是一个非常吸引人的全新领域；第二，这 ...

50行代码玩转生成对抗网络GAN模型！（附源码）

[2018-07-30] 本文为大家介绍了生成对抗网络（Generate Adversarial Network，GAN），以最直白的语言来讲解它，最后实现一个简单的 GAN 程序来帮助大家加深理解。...

深度神经网络揭示了大脑喜欢看什么

分离特征抽取与决策制定 如何用6-18个神经元玩转Atari游戏

本周栏目热点

分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏