机器学习从浅层模型到深层模型-机器学习-技术-爱吧机器人网

机器学习从浅层模型到深层模型

2015-04-28 爱吧机器人网浏览量：

在前面几篇文章里谈到了深层模型的结构和它的优势。事实上，深层模型具有强大的表达能力，并可以像人类一样有效提取高级特征，并不是新的发现。那么为什么深层模型直到最近几年才开始得到广泛的关注和应用呢？还是从传统的机器学习方法和浅层学习谈起。

一、浅层模型及训练方法

反向传播算法（Back Propagation，BP算法）是一种神经网络的梯度计算方法。反向传播算法先定义模型在训练样本上的代价函数，再求代价函数对于每个参数的梯度。反向传播算法巧妙的利用了下层神经元的梯度可由上层神经元的残差导出的规律，求解的过程也正如算法的名字那样，自上而下反向逐层计算，直至获得所有参数的梯度。反向传播算法可以帮助训练基于统计的机器学习模型，从大量的训练样本中挖掘出统计规律，进而可对未标注的数据进行预测。这种基于统计的学习方法比起传统的基于规则的方法具备很多优越性。

上世纪八九十年代，人们提出了一系列机器学习模型，应用最为广泛的包括支持向量机（Support Vector Machine，SVM）和逻辑回归（Logistic Regression，LR），这两种模型分别可以看作包含1个隐藏层和没有隐藏层的浅层模型。训练时可以利用反向传播算法计算梯度，再用梯度下降方法在参数空间中寻找最优解。浅层模型往往具有凸代价函数，理论分析相对简单，训练方法也容易掌握，取得了很多成功的应用。

二、深层模型的训练难度

浅层模型的局限性在于有限参数和计算单元，对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定的制约。深层模型恰恰可以克服浅层模型的这一弱点，然而应用反向传播和梯度下降来训练深层模型，就面临几个突出的问题：

1.局部最优。与浅层模型的代价函数不同，深层模型的每个神经元都是非线性变换，代价函数是高度非凸函数，采用梯度下降的方法容易陷入局部最优。

2.梯度弥散。使用反向传播算法传播梯度的时候，随着传播深度的增加，梯度的幅度会急剧减小，会导致浅层神经元的权重更新非常缓慢，不能有效学习。这样一来，深层模型也就变成了前几层相对固定，只能改变最后几层的浅层模型。

3.数据获龋深层模型的表达能力强大，模型的参数也相应增加。对于训练如此多参数的模型，小训练数据集是不能实现的，需要海量的有标记的数据，否则只能导致严重的过拟合（Over fitting）。

三、深层模型的训练方法

尽管挑战很大，Hinton教授并没有放弃努力，他30年来一直从事相关研究，终于有了突破性的进展。2006年，他在《Science》上发表了一篇文章，掀起了深度学习在学术界和工业界的浪潮。这篇文章的两个主要观点是：

1.多隐藏层的人工神经网络具有优异的特征学习能力，学习到的特征对数据有更本质的刻画，从而有利于可视化或分类。

2.深度神经网络在训练上的难度，可以通过“逐层初始化”（Layer-wise Pre-training）来有效克服，文中给出了无监督的逐层初始化方法。

优异的特征刻画能力前文已经提到，不再累述，下面重点解释一下“逐层初始化”的方法。

逐层初始化的方法

给定原始输入后，先要训练模型的第一层，即图中左侧的黑色框。黑色框可以看作是一个编码器，将原始输入编码为第一层的初级特征，可以将编码器看作模型的一种“认知”。为了验证这些特征确实是输入的一种抽象表示，且没有丢失太多信息，需要引入一个对应的解码器，即图中左侧的灰色框，可以看作模型的“生成”。为了让认知和生成达成一致，就要求原始输入通过编码再解码，可以大致还原为原始输入。因此将原始输入与其编码再解码之后的误差定义为代价函数，同时训练编码器和解码器。训练收敛后，编码器就是我们要的第一层模型，而解码器则不再需要了。这时我们得到了原始数据的第一层抽象。固定第一层模型，原始输入就映射成第一层抽象，将其当作输入，如法炮制，可以继续训练出第二层模型，再根据前两层模型训练出第三层模型，以此类推，直至训练出最高层模型。

逐层初始化完成后，就可以用有标签的数据，采用反向传播算法对模型进行整体有监督的训练了。这一步可看作对多层模型整体的精细调整。由于深层模型具有很多局部最优解，模型初始化的位置将很大程度上决定最终模型的质量。“逐层初始化”的步骤就是让模型处于一个较为接近全局最优的位置，从而获得更好的效果。

四、浅层模型和深层模型的对比

浅层模型和深层模型的对比

浅层模型有一个重要的特点，需要依靠人工经验来抽取样本的特征，模型的输入是这些已经选取好的特征，模型只用来负责分类和预测。在浅层模型中，最重要的往往不是模型的优劣，而是特征的选取的优劣。因此大多数人力都投入到特征的开发和筛选中来，不但需要对任务问题领域有深刻的理解，还要花费大量时间反复实验摸索，这也限制了浅层模型的效果。

事实上，逐层初始化深层模型也可以看作是特征学习的过程，通过隐藏层对原始输入的一步一步抽象表示，来学习原始输入的数据结构，找到更有用的特征，从而最终提高分类问题的准确性。在得到有效特征之后，模型整体训练也可以水到渠成。

精选推荐

人工智能民主化能否实现取决于科技巨头

[2017-12-29] 我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词，民主化。但这些公司如何界定“民主化”还不清楚，像AI本身一样，它似乎有点炒作的味道...

麻省理工正研究植物机器人让植物自主控制机器人

[2018-12-08] 控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人，但我们很少听说植物机器人对吧？一个机器人其实是对植物有很大益处的，因为一般植物根本无法移动......

MIT用深度学习处理3D点云数据应用于无人汽车等领域

[2019-10-23] 如果你见过自动驾驶汽车，也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器，无人驾驶汽车依靠它在现实世界中进行导航。 ...

MIT研制出可以像植物一样生长的机器人

[2019-11-09] 麻省理工学院开发了一种新型机器人，这种机器人可以本质上自我延伸，其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是，研究人员 ...

谷歌宣布搜索算法重大升级，用BERT模型理解用户搜索意图

[2019-10-26] 谷歌刚刚宣布，其搜索引擎的核心算法正在进行一项重大升级，这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术（BERT ...

谷歌在中国成立一个新的人工智能（AI）研究中心

[2017-12-13] 谷歌正在中国建立一个新的人工智能（AI）研究中心，希望进一步扩展到中国，以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一，亚马逊，微软......

这个外科手术机器人可以为患者“量身定制”

[2019-07-12] 世界首创，来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界，他们创造了可定制的、小型化的手术机器人，能够唯一地 ...

人工智能准确预测患者一年内的死亡风险，原理却无法解释

[2019-11-13] 图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示，人工智能通过查看心脏测试结果，以高达85%以上的准确率预测了一个人在一 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

顶级AI会议NIPS压轴2017（附PPT、视频、代码大汇总）

[2017-12-19] NIPS，全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems)，是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习选择深层模型的原因

[1970-01-01] 深度学习采用的模型为深层神经网络（Deep Neural Networks，DNN）模型，即包含多个隐藏层（Hidden Layer，也称隐含层）的神经网络（Ne ...

机器学习—自由编码器

[1970-01-01] 一种常见的深层模型是由自编码器（Auto-Encoder）构造的。自编码器可以利用一组无标签的训练数据{x(1), x(2), &hellip }（其中x(i)是一个n ...

【NIPS最佳论文出炉】冷扑大师能战胜AlphaZero吗？No（Science论文）

[2017-12-19] 拿下NIPS2017 最佳论文，登上Science，“冷扑大师”最近有点热。18日，两位作者，CMU博士生Noam Brown和Tuomas Sandholm教授在Reddit上回答问题。对“为什么不使用深度学习......

日本开发团队给机器人嵌入神经网络

[2016-08-18] 　　近日在日本国立科学博物馆展出的机器人 Alter，可谓是目前世界上最为先进的机器人之一，因为它是一款嵌入了神经网络的机器人，来自日本 ...