爱吧机器人网 » 技术 > 机器学习 > 正文

机器学习集成算法:XGBoost思想

XGBoost和随机森林虽然用的基础模型都是决策树,但是它们在本质上是不同的,XGBoost是串行的组合决策树,也就是先有了第一个,然后根据某个算法计算出要不要第二棵树,如果要,才有了第二个,依次类推,不可能并行地同时处理3个;而随机森林是并行的组合,意思是可以并行计算,一次并行处理多个。

1、回顾
 
这几天推送了机器学习的降维算法,总结了特征值分解法,奇异值分解法,通过这两种方法做主成分分析(PCA)。大家有想了解的,可以参考:
 
数据预处理:PCA原理推导
 
数据降维处理:PCA之特征值分解法例子解析
 
数据降维处理:PCA之奇异值分解(SVD)介绍
 
数据降维:特征值分解和奇异值分解的实战分析
 
至此,已经总结了机器学习部分常用的回归,分类,聚类算法,接下来,介绍一种非常经典的,在工业界应用广泛的集成算法:XGBoost。
 
2、从随机森林说到XGBoost
 
随机森林是在决策树的基础上,放入许多棵决策树,并行的,独立的构造出每棵决策树,树与树之间没有关系,通过这种方式达到优化提升的目的。
 
随机森林算法,再加入第 k 棵树时,没有考虑前面的 k - 1 棵,只是随机的往森林里加一棵。与之相对的是,每次往森林里扔第 k 棵树的时候,要考虑前面的 k-1 棵树,并且加入这 k 棵树后,预测的效果必须要好才行,不好的话,就不能放入这 k 棵树,关于如何选择第 k 棵树以达到优化提升的过程,就是 XGBoost 的精华所在。
 
3、XGBoost选择第 k 棵树的思想
 
XGBoost算法解决的核心问题:如何选择第 k 棵树,而不是像随机森林那样随便往里面扔树。
 
下面举个例子先说明下问题的背景,要预测某个群体玩电脑游戏的可能性大小,在此我们要构建了 tree1,根据 age 和 male 这两个特征,得到了tree1,每个叶子节点不是简单的给出玩还是不玩电脑游戏,而是给出它的得分值(概率值相关),这是比较有意义的,之前,说到过,高斯混合模型(GMM)在做聚类任务时,最后也是给出每个样本属于每个分类的得分值,这就比KNN算法简单的给出每个样本属于某个簇,而不能给出属于每个簇的概率值,有时候要有意义的多。
 
\
根据 tree1,可以判断小男孩这个样本,玩电脑游戏的得分值为 +2,而小女孩呢得分值为 +0.1 ,爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3,爷爷玩游戏的得分值为 +0.1 ,奶奶玩游戏的得分值为 -3 。
 
现在又来了 tree2,也就是说树的结构已经知道了,可以看出小男孩和爷爷的得分值都为 +0.9 。
 
\
所以,根据这两颗树,我们得出,小男孩玩电脑游戏的得分值为 +2.9,爷爷玩电脑游戏的得分值为 -0.1 。
 
问题来了,那么根据 tree2这个树的决策结构,我们是否该选择 tree2 呢? 我们可以这样构思这个问题,tree1和tree2 我们可以综合起来看成一颗决策树来考虑,这样可以借用决策树的一些思想,比如加入 tree2 后,综合考虑得出的信息增益是否大于我们不加入tree2时的好,如果没有满足,那么还是不要这颗 tree2,如果能大于阈值,就可以说它提升了模型的预测精度,要!
 
可以看到加入tree2后,小男孩的最终得分值更接近 +3了,而爷爷的得分也更接近了目标值。所以tree2 要加入进来。
 
以上就是XGBoost在做优化时主要思想。


上一篇:配备“一键重置”算法 机器人学习变得更方便
下一篇:深度学习算法研究现状
精选推荐

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

[2017-03-02]   随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中,游戏规则的改变者。 机 ...

顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)

[2017-12-19]  NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习之——正则化

[2018-05-18]  最近在刷李航的《统计学习方法》这本书,在很多算法的损失函数里,都出现类似的描述:损失函数最小化原则一般就是用正则化的极大似然估计进 ...

机器学习算法可预测出乳腺癌治疗率(图)

[1970-01-01]    据外媒报道,患有同种疾病的不同病人在接受同一种治疗方案时,其获得的疗效也会存在不同,这就给医生留下了一个难题:他们怎样才能知道 ...