无监督学习、GAN和强化学习将构建机器学习的未来-机器学习-技术-爱吧机器人网

无监督学习、GAN和强化学习将构建机器学习的未来

2017-03-02 机器人圈浏览量：

随着人工智能的不断发展，许多新的机器学习技术、架构和算法被提出，但这里有三个宏观趋势，将成为机器学习中，游戏规则的改变者。

机器学习（ML），特别是深度学习（DL）已经成为许多科技出版物所涵盖的最热门话题之一。当然，这里面有一些炒作的成份，但是我们有足够好的理由相信，机器学习这一领域是值得关注和覆盖的。

机器学习的范围和影响一遍又一遍地在各种学科，数百种应用中被证明其重要性。广告、无人驾驶、聊天机器人、网络安全、无人机、电子商务、金融技术、工业机械、医疗保健、营销策划、机器人，以及搜索引擎等应用，只是机器学习的部分应用而已。

机器学习的优势不再受限于只有少数几个能够买得起花哨装备的精英人士。不可否认的是，智能产品推荐以及高性价比的聊天机器人已经在普通百姓中得到了普及。这还不要说很多尚未开发的领域等着我们去发掘。

开发并部署机器学习的成本正快速下降。即使是最热衷于这种技术的怀疑论者，比如马斯克和霍金，也可以很容易地发现它的用途非常多，并从机器学习身上找到商业价值。

根据几位机器学习、深度学习领域的知名专家，深度神经网络“表现得极其好”，即便他们可能也搞不清到底为什么。

深度学习正在迅速演变，而且是在许多维度上的。很多新技术、新架构，以及新算法被提出，当然，每个新的想法都有其独特的价值。然而，在未来几年，三个主要的宏观趋势将改变真正的游戏规则。

无监督学习（unsupervised learning）

机器学习和深度学习中，最重要的宏观趋势是算法正在逐步从监督学习模式转变为无监督学习模式。

绝大多数传统机器学习的实现靠的是受监督的学习方式。换句话说，它们只有在使用大量标记的训练数据训练时才有用。虽然，受监督的学习方式效果不错，但是，收集和标记大型数据集的过程非常耗时、昂贵，而且还容易出错。当数据集的规模增加时，这些挑战变得更加显著。而另一方面，无监督的学习方式具有巨大的优势，因为他们不需要大量的训练数据集。这就解释了为什么最近大量有关机器学习的论文均与无监督学习有关。

生成对抗网络（Generative adversarial networks，GANs）

学习GAN的基本原理的前提是，你需要理解生成式和辨别式模型之间的差异。辨别式模型是使用标记的历史数据进行训练，并使用其累积的知识来推断，预测或分类的模型。

以识别各种汽车的品牌和型号的图像识别模型为例。这样的模型通常由一组预先识别的汽车图像训练，同时学习将各种特征（例如尺寸、高度、尺寸和比率等）与特定品牌和模型相关联。一旦被训练，该模型会分析新的未标记的图像，并将其与特定的汽车品牌相关联。

生成式模型的工作原理则不同，它的模式是，在训练期间，获得的积累的数据，来合成或产生新的结果。还是以汽车为例，生成模型的任务是创建一个全新的汽车概念之后，通过未标记的数据集（未识别的各种汽车的图像）进行训练。生成模型使用训练图像来了解汽车类别（例如跑车、SUV和轿车）的独特特征，并使用数据给出该通用类别特征的新汽车概念。更准确地说，一个训练有素的生成式模型不会用类似跑车的前端生成一个卡车的概念。

那么，什么是生成式对抗网络（GAN）？未来它们会如何？其实，GANs已经不是一个新的模型类别了，他们只是用来训练一个生成模型的一种非常聪明和有效的方法。这种强度减少了对大型训练数据集的需求。

GAN通常使用相互充当对手的两个神经网络来构造。一个生成非常类似于有效样本的假样本，而另一个网络（鉴别器）则接收与来自发生器的偶然错误样本混合的训练样本流，并将其区分开。这两个网络都是基于他们的对手的性能进行训练，在相互fooling的过程中变得越来越好。这个迭代过程的最终结果是，整体而言，模型被更好地训练，而且，更重要的是，通过最少的外部干预实现了对模型的改进。

强化学习（Reinforcement learning，RL）

强化学习原则上是通过实验和探索的方式学习。这与监督学习的范例大相径庭，因为后者依赖于已知的良好的训练数据，而强化学习开始时几乎不知道“世界是如何工作”。强化学习基于三个基本要素——“状态”、“行动”和“奖励”。

举例来说，假设有一家毛衣电商，他们想使用强化学习算法，来说服游客购买他们的产品。我们来看看“状态”、“行动”和“奖励”是如何工作的。一个独特的“状态”，可以是一个潜在的加拿大访客，花了两分钟挑选一件毛衣的各种颜色，并已阅读该产品的两个评论；“行动”则是指，商家说服潜在顾客进行购买会采取的步骤（例如提供即时折扣，或显示穿着类似毛衣的名人的照片）。在某个“状态”中应用“行动”会导致到新“状态”的转换。在每次转换之后，基于进行销售的概率的增加（或减少）来“奖励”（或惩罚）强化学习算法。这里的关键是，强化学习算法最初对此毫不知情，但随着时间的推移，他们会学习选择在特定的“状态”（人口、环境和偏好）下完成最佳的策略（动作序列）。

为什么说强化学习非常重要？主要有两个原因。首先，它们在诸如机器人、广告和游戏的各种应用中产生了显着的结果。更重要的是，强化学习可以很好地模仿人类从婴儿到成年的大脑的学习过程。

这种飞跃使机器智能更接近人类智能，使机器能够应用更多技能，比如感觉和直觉的学习。

精选推荐

什么是机器人学？机器人学简介

[2017-12-14] 机器人学是工程学与科学的交叉学科，包括机械工程，电气工程，计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用，以及用于控制、感官反馈和信息处理的计算机系统。...

机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25] 计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特（Robert Platt）说：“机器人手操作是下一步要解决的问题。想象一下，一个机器人可以在现实世界中用手去做事......

九台“猎豹”机器人组队踢球，麻省理工高材生们的高级趣味

[2019-11-09] 本周，在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上，一群由人工智能驱动的机器人就是这场比赛的 ...

MIT用深度学习处理3D点云数据应用于无人汽车等领域

[2019-10-23] 如果你见过自动驾驶汽车，也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器，无人驾驶汽车依靠它在现实世界中进行导航。 ...

农业将为高科技行业农业机器人的应用领域

[2017-12-17] 农业正在迅速成为一个令人兴奋的高科技产业，吸引了新专业人士，新公司和新投资者。技术发展迅速，不仅提高了农民的生产能力，而且促进了我们所知道的机器人和自动化技术的发展。...

谷歌大脑发布ROBEL基准鼓励用低成本机器人训练AI系统

[2019-10-11] 训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统，测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件， ...

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23] 谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月，虽然遭到竞争对手的质疑，但就 ...

亚马逊计划建一个4000万美元的机器人中心

[2019-11-07] 爱吧机器人网消息，亚马逊11月6日宣布了一项计划，计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......

机器人是怎么深度学习的？

[2016-03-29] 　　一个人独处时，感觉有点孤单，怎么办？微软亚洲研究院推出的微软小冰，或许 ...