爱吧机器人网 » 技术 > 机器学习 > 正文

人工智能算法--决策树(DT)

核心提示:决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数

决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。

决策树由3个主要部分组成,分别为决策节点,分支,和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的数据类别或属性,每个叶子节点表示一种结果。整个决策的过程从根决策节点开始,从上到下。根据数据的分类在每个决策节点给出不同的结果。


构造决策树是一个复杂的工作。下面我们将介绍决策树中的ID3算法和“信息熵”的概念。并手工创建一个简单的决策树,用以说明整个构建的过程和思路。

ID3算法

构造决策树的方法有很多种,ID3是其中的一种算法。ID3算法最早是由罗斯昆(J. Ross Quinlan)1975年在悉尼大学提出的一种分类预测算法,核心是“信息熵”。ID3算法认为“互信息”高的属性是好属性,通过计算历史数据中每个类别或属性的“信息熵”获得“互信息”,并选择“互信息”最高的类别或属性作为决策树中的决策节点,将类别或属性的值做为分支继续进行分裂。不断重复这个过程,直到生成一棵完整的决策树。

信息熵的含义及分类

信息熵是信息论中的一个重要的指标,是由香农在1948年提出的。香农借用了热力学中熵的概念来描述信息的不确定性。因此信息学中的熵和热力学的熵是有联系的。根据Charles H. Bennett对Maxwell’s Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。

简单的说信息熵是衡量信息的指标,更确切的说是衡量信息的不确定性或混乱程度的指标。信息的不确定性越大,熵越大。决定信息的不确定性或者说复杂程度主要因素是概率。决策树中使用的与熵有关的概念有三个:信息熵,条件熵和互信息。下面分别来介绍这三个概念的含义和计算方法。

信息熵

信息熵是用来衡量一元模型中信息不确定性的指标。信息的不确定性越大,熵的值也就越大。而影响熵值的主要因素是概率。这里所说的一元模型就是指单一事件,而不确定性是一个事件出现不同结果的可能性。例如抛硬币,可能出现的结果有两个,分别是正面和反面。而每次抛硬币的结果是一个非常不确定的信息。因为根据我们的经验或者历史数据来看,一个均匀的硬币出现正面和反面的概率相等,都是50%。因此很难判断下一次出现的是正面还是反面。这时抛硬币这个事件的熵值也很高。而如果历史数据告诉我们这枚硬币在过去的100次试验中99次都是正面,也就是说这枚硬币的质量不均匀,出现正面结果的概率很高。那么我们就很容易判断下一次的结果了。这时的熵值很低,只有0.08。


我们把抛硬币这个事件看做一个随机变量S,它可能的取值有2种,分别是正面x1和反面x2。每一种取值的概率分别为P1和P2。我们要获得随机变量S的取值结果至少要进行1次试验,试验次数与随机变量S可能的取值数量(2种)的对数函数Log有联系。Log2=1(以2为底)。因此熵的计算公式是:


在抛硬币的例子中,我们借助一元模型自身的概率,也就是前100次的历史数据来消除了判断结果的不确定性。而对于很多现实生活中的问题,则无法仅仅通过自身概率来判断。例如:对于天气情况,我们无法像抛硬币一样通过晴天,雨天和雾霾在历史数据中出现的概率来判断明天的天气,因为天气的种类很多,并且影响天气的因素也有很多。同理,对于网站的用户我们也无法通过他们的历史购买频率来判断这个用户在下一次访问时是否会完成购买。因为用户是的购买行为存在着不确定性,要消除这些不确定性需要更多的信息。例如用户历史行为中的广告创意,促销活动,商品价格,配送时间等信息。因此这里我们不能只借助一元模型来进行判断和预测了,需要获得更多的信息并通过二元模型或更高阶的模型了解用户的购买行为与其他因素间的关系来消除不确定性。衡量这种关系的指标叫做条件熵。

条件熵

条件熵是通过获得更多的信息来消除一元模型中的不确定性。也就是通过二元或多元模型来降低一元模型的熵。我们知道的信息越多,信息的不确定性越小。例如,只使用一元模型时我们无法根据用户历史数据中的购买频率来判断这个用户本次是否也会购买。因为不确定性太大。在加入了促销活动,商品价格等信息后,在二元模型中我们可以发现用户购买与促销活动,或者商品价格变化之间的联系。并通过购买与促销活动一起出现的概率,和不同促销活动时购买出现的概率来降低不确定性。


计算条件熵时使用到了两种概率,分别是购买与促销活动的联合概率P(c),和不同促销活动出现时购买也出现的条件概率E(c)。以下是条件熵E(T,X)的计算公式。条件熵的值越低说明二元模型的不确定性越小。



互信息

互信息是用来衡量信息之间相关性的指标。当两个信息完全相关时,互信息为1,不相关时为0。在前面的例子中用户购买与促销活动这两个信息间的相关性究竟有多高,我们可以通过互信息这个指标来度量。具体的计算方法就熵与条件熵之间的差。用户购买的熵E(T)减去促销活动出现时用户购买的熵E(T,X)。以下为计算公式:


熵,条件熵和互信息是构建决策树的三个关键的指标。下面我们将通过一个维基百科中的实例说明创建决策树的过程。

构建决策树实例

这是一家高尔夫球俱乐部的历史数据,里面记录了不同天气状况用户来打高尔夫球的历史记录。我们要做的是通过构建决策树来预测用户是否会来打高尔夫球。这里用户是否来打球是一个一元模型,具有不确定性,熵值很高。我们无法仅通过Yes和No的频率来判断用户明天是否会来。因此,需要借助天气的信息来减少不确定性。下面分别记录到了4种天气情况,我们通过计算条件熵和互信息来开始构建决策树的第一步:构建根决策点。


构建根决策节点

构建根决策点的方法就是寻找4种天气情况中与打高尔夫球相关性最高的一个。首先我们来看Play Golf这个一元模型的熵,来看看这件事的不确定性有多高.

一元模型的熵

在一元模型中,仅通过历史数据的概率来看预测Play Golf是一件非常不确定的事情,在14条历史数据中,打球的概率为64%,不打球的概率为36%。熵值达到了0.940。这与之前抛硬币的例子很像。在无法改变历史数据的概率时,我们需要借助更多的信息来降低不确定性。也就是计算条件熵。


二元模型条件熵

计算二元模型的条件熵需要知道Play Golf与4种天气情况一起出现的联合概率,以及在不同天气情况下Play Golf出现的条件概率。下面我们分别来计算这两类概率。

联合概率


以上是经过分别计算后4种天气情况与Play Golf同时出现的联合概率值。

条件概率

同时我们也分别计算出了4种天气情况下,不同取值时Play Golf的条件概率值。并通过联合概率与条件概率求得4种天气情况与Play Golf间的条件熵。



互信息
在已知Play Golf的一元模型熵和不同天气条件下的二元模型熵后。我们就可以通过互信息来度量哪种天气与Play Golf的相关性最高了。


通过互信息的值可以发现,4种天气中Outlook的值最大。说明Outlook与Play Golf的相关性最高。因此我们选择Outlook作为决策树的根节点来构建决策树。


构建根节点

在整个决策树中,Outlook因为与Play Golf的相关性最高,所以作为决策树的根节点。以Outlook作为根节点后,决策树出现了三个分支,分别是Outlook的三个不同的取值Sunny,Overcast和Rainy。其中Overcast所对应的Play Golf都是Yes,因此这个分支的叶子节点为Yes。(后面构建分支决策节点时会看到)另外两个分支我们将使用和前面一样的方法,通过计算熵,条件熵和互信息来挑选下一个分支的决策节点。


构建分支决策节点

下面我们继续构建Sunny,Overcast和Rainy这三个分支的决策节点,首先来看下Overcast节点,这个节点只有一种结果,因此无需在继续分裂。

Outlook节点Overcast分支
在Outlook根节点下的Overcast分支中,Play Golf只有一种结果Yes,因此Overcast分支停止分裂。叶子节点的值为Yes。



Outlook节点Sunny分支
在Outlook根节点下的Sunny分支中,单独形成了另一个表。此时由于Outlook以及作为决策树的根节点了,因此所需考虑的天气情况为3种,我们继续对这个表确定决策节点。从3种天气情况中找出Sunny分支下的决策节点。方法及步骤和前面一致,计算熵,条件熵和互信息,并以互信息最大的作为Sunny分支的决策节点进行分裂。


首先计算Play Golf的一元模型熵,可以看到在Sunny这一分支中根据Play Golf自身的历史数据 No和Yes的概率分布为40%和60%,熵值为0.971。具有极高的不确定性。因此我们继续计算条件熵。


以下是三种天气情况分别与Play Golf的联合概率和条件概率计算结果。这里可以看到Wind有些与众不同,Wind为FALSE时都为Play Golf的值都为Yes。


通过计算获得三种天气情况与Play Golf的条件概率,其中Wind的值为0。



互信息

计算三种天气情况与Play Golf的互信息值,也就是相关性。值越大相关性越高。三种天气中Wind的互信息值最高,为0.971。说明Sunny分支下Wind和Play Golf的相关性最高。因此选择Wind作为Sunny分支的决策节点。



构建分支决策节点(Windy)

在Outlook根节点的Sunny分支下,经过计算互信息的值Wind与Play Golf相关性最高,因此Wind作为Sunny的决策节点。Wind有两个分支,分别为FALSE和TRUE。当Wind为FALSE时,Play Golf的结果为Yes。Wind为TRUE时结果为No。



Outlook节点Rainy分支

Outlook根节点还有一个分支是Rainy。以下是Outlook下Rainy的分支数据表。我们从这个表中挑选出Rainy分支下的决策节点。由于Outlook以及作为决策树的根节点,Wind成为了Sunny分支下的决策节点,因此我们需要考虑的天气情况就只剩下两种Temp和Humidity。


首先计算在Rainy分支下Play Golf的熵。从历史数据看No和Yes的概率为60%和40%,熵为0.971,一元模型依靠自身概率的不确定性较高。加入两个天气情况的信息来计算条件熵。


通过计算两种天气情况与Play Golf的联合概率和条件概率发现,情况与Sunny分支类似。Humidity应该与Play Golf的相关性较高。


通过计算获得Temp和Humidity与Play Golf的条件熵,其中Humidity与Play Golf的条件熵为0。



互信息

Play Golf熵减去两种天气与Play Golf的条件熵获得互信息的值。Humidity值最大,说明相关性最高。因此Humidity被选为Rainy分支的决策节点。



构建分支决策节点(Humidity)

在Outlook的Rainy分支下,Humidity作为决策节点有两个分支,分别为High和Normal。所有High分支都对应Play Golf的No,所有Normal分支都对应了Play Golf的Yes。因此停止继续分裂。


到此为止我们通过Play Golf与天气情况的历史数据构建了决策树。下面我们在从较高的维度来看下整个决策树与历史数据表间的关系。

数据表与决策树

通过将决策树中每个决策点还原为原始数据表可以发现,每一个决策点都对应了一张数据表。从根决策节点开始,我们通过计算熵寻找与Play Golf最相关的天气信息,来建立决策点及分支,并反复迭代这一过程。直到最终构建完整的决策树。


使用决策树进行预测

文章开始的时候我们说过,决策树是用来进行分类和预测的。具体过程如下。当我们构建好决策树后,当有新的信息发送时,我们利用已有的决策树逻辑对新的信息结构进行判断。当信息的内容与决策树一致时,就进入下一分支进行判断,并通过叶子节点获得分类的结果。例如,当新的一天开始时,我们就可以通过4个天气特征来判断用户是否会来打高尔夫球。以下是具体预测流程的示意图,首先寻找新信息中的根决策节点Outlook,根据Outlook的取值进入到Sunny分支,在Sunny分支中继续判断下一决策点Windy的取值,新的信息中Windy的取值为FALSE,根据决策树中的逻辑返回Yes。因此在新信息中通过对天气情况的判断预测用户会来打高尔夫球。


通过随机森林提高准确率


决策树是建立在已知的历史数据及概率上的,一课决策树的预测可能会不太准确,提高准确率最好的方法是构建随机森林(Random Forest)。所谓随机森林就是通过随机抽样的方式从历史数据表中生成多张抽样的历史表,对每个抽样的历史表生成一棵决策树。由于每次生成抽样表后数据都会放回到总表中,因此每一棵决策树之间都是独立的没有关联。将多颗决策树组成一个随机森林。当有一条新的数据产生时,让森林里的每一颗决策树分别进行判断,以投票最多的结果作为最终的判断结果。以此来提高正确的概率。

作者:蓝鲸(王彦平);转自:人工智能 公众号

上一篇:人工智能利用单眼强度图像进行面部深度图估计的对抗架构深度学习
下一篇:入坑机器学习?送你一篇麻省博士的学习心得

本周栏目热点

深度学习之生成式对抗网络(GAN)入门指南

[2017-12-25]  本文将介绍GAN的基础概念及其工作方式,并辅之以有趣案例的实现方法和重要资源,方便初学者训练、使用。2014年Ian J Goodfellow等人首先提出生成对抗网络(Generative Ad......

机器学习各种熵:从入门到全面掌握

[2018-03-19]  信息熵是信息论和机器学习中非常重要的概念,应用及其广泛,各种熵之间都存在某些直接或间接的联系,本文试图从宏观角度将各种熵穿插起来,方便理解。本文首先讲解机器学习算......

伯克利最新无模型深度强化学习研究:从零开始训练机器人玩乐高

[2018-03-29]  现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现。然而,众所周知,当与环 ...

【Science重磅】DeepMind生成查询网络GQN 无监督学习展现3D场景

[2018-06-15]  DeepMind今天在Science发表论文,提出生成查询网络(Generative Query Network,GQN),能够在无监督的情况下,抽象地描述场景元素,并通过“想象”渲染出场景中没有见到的......

ArXiv最受欢迎开源深度学习框架榜单:TensorFlow第一,PyTorch第四

[2018-03-09]  Kears作者Fran?ois Chollet刚刚在Twitter贴出最近三个月在arXiv提到的深度学习框架,TensorFlow不出意外排名第一,Keras排名第二。随后是C ...

从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

[2018-06-19]  近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版),详细、明了地介绍了机器学习中的相关概念、数学知识和各......

精选推荐

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

德国研发出一种能在你体内工作的微型机器人

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......