机器学习集成算法：XGBoost思想-机器学习-技术-爱吧机器人网

机器学习集成算法：XGBoost思想

2017-12-12 IT技术之家浏览量：

XGBoost和随机森林虽然用的基础模型都是决策树，但是它们在本质上是不同的，XGBoost是串行的组合决策树，也就是先有了第一个，然后根据某个算法计算出要不要第二棵树，如果要，才有了第二个，依次类推，不可能并行地同时处理3个；而随机森林是并行的组合，意思是可以并行计算，一次并行处理多个。

1、回顾

这几天推送了机器学习的降维算法，总结了特征值分解法，奇异值分解法，通过这两种方法做主成分分析（PCA）。大家有想了解的，可以参考：

数据预处理：PCA原理推导

数据降维处理：PCA之特征值分解法例子解析

数据降维处理：PCA之奇异值分解（SVD）介绍

数据降维：特征值分解和奇异值分解的实战分析

至此，已经总结了机器学习部分常用的回归，分类，聚类算法，接下来，介绍一种非常经典的，在工业界应用广泛的集成算法：XGBoost。

2、从随机森林说到XGBoost

随机森林是在决策树的基础上，放入许多棵决策树，并行的，独立的构造出每棵决策树，树与树之间没有关系，通过这种方式达到优化提升的目的。

随机森林算法，再加入第 k 棵树时，没有考虑前面的 k - 1 棵，只是随机的往森林里加一棵。与之相对的是，每次往森林里扔第 k 棵树的时候，要考虑前面的 k-1 棵树，并且加入这 k 棵树后，预测的效果必须要好才行，不好的话，就不能放入这 k 棵树，关于如何选择第 k 棵树以达到优化提升的过程，就是 XGBoost 的精华所在。

3、XGBoost选择第 k 棵树的思想

XGBoost算法解决的核心问题：如何选择第 k 棵树，而不是像随机森林那样随便往里面扔树。

下面举个例子先说明下问题的背景，要预测某个群体玩电脑游戏的可能性大小，在此我们要构建了 tree1，根据 age 和 male 这两个特征，得到了tree1，每个叶子节点不是简单的给出玩还是不玩电脑游戏，而是给出它的得分值（概率值相关），这是比较有意义的，之前，说到过，高斯混合模型（GMM）在做聚类任务时，最后也是给出每个样本属于每个分类的得分值，这就比KNN算法简单的给出每个样本属于某个簇，而不能给出属于每个簇的概率值，有时候要有意义的多。

根据 tree1，可以判断小男孩这个样本，玩电脑游戏的得分值为 +2，而小女孩呢得分值为 +0.1 ，爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3，爷爷玩游戏的得分值为 +0.1 ，奶奶玩游戏的得分值为 -3 。

现在又来了 tree2，也就是说树的结构已经知道了，可以看出小男孩和爷爷的得分值都为 +0.9 。

所以，根据这两颗树，我们得出，小男孩玩电脑游戏的得分值为 +2.9，爷爷玩电脑游戏的得分值为 -0.1 。

问题来了，那么根据 tree2这个树的决策结构，我们是否该选择 tree2 呢？我们可以这样构思这个问题，tree1和tree2 我们可以综合起来看成一颗决策树来考虑，这样可以借用决策树的一些思想，比如加入 tree2 后，综合考虑得出的信息增益是否大于我们不加入tree2时的好，如果没有满足，那么还是不要这颗 tree2，如果能大于阈值，就可以说它提升了模型的预测精度，要！

可以看到加入tree2后，小男孩的最终得分值更接近 +3了，而爷爷的得分也更接近了目标值。所以tree2 要加入进来。

以上就是XGBoost在做优化时主要思想。

精选推荐

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

2018年企业数字化转型的五大趋势

[2017-12-16] 据2016年哈佛商学院研究表明，选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升，相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊，也曾是收入处于......

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

智能机器人困惑的时候知道该问什么问题

[2017-03-20] 照片：Nick Dentamaro 布朗大学上周，我们提到了麻省理工学院的一些研究，即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

人工智能准确预测患者一年内的死亡风险，原理却无法解释

[2019-11-13] 图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示，人工智能通过查看心脏测试结果，以高达85%以上的准确率预测了一个人在一 ...

为未来战场创造更有效的机器人美国陆军研究人工纳米马达

[2019-10-11] 为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友，美国陆军研究人员正在执行一项任务，即研究肌肉分子生命功能的价值，以及复制过 ...

CES 2018：英特尔推出49量子位芯片争夺量子霸权

[2018-01-10] 在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中，英特尔通过了一个关键的里程碑。近日，这个科技巨头已经推出了一个49个量子位 ...

Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17] 电阻RAM技术开发商Crossbar表示，它已与航空航天芯片制造商Microsemi达成协议，允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

顶级AI会议NIPS压轴2017（附PPT、视频、代码大汇总）

[2017-12-19] NIPS，全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems)，是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习选择深层模型的原因

[1970-01-01] 深度学习采用的模型为深层神经网络（Deep Neural Networks，DNN）模型，即包含多个隐藏层（Hidden Layer，也称隐含层）的神经网络（Ne ...

机器学习—自由编码器

[1970-01-01] 一种常见的深层模型是由自编码器（Auto-Encoder）构造的。自编码器可以利用一组无标签的训练数据{x(1), x(2), &hellip }（其中x(i)是一个n ...

【NIPS最佳论文出炉】冷扑大师能战胜AlphaZero吗？No（Science论文）

[2017-12-19] 拿下NIPS2017 最佳论文，登上Science，“冷扑大师”最近有点热。18日，两位作者，CMU博士生Noam Brown和Tuomas Sandholm教授在Reddit上回答问题。对“为什么不使用深度学习......

日本开发团队给机器人嵌入神经网络

[2016-08-18] 　　近日在日本国立科学博物馆展出的机器人 Alter，可谓是目前世界上最为先进的机器人之一，因为它是一款嵌入了神经网络的机器人，来自日本 ...