如何在机器学习项目中使用统计方法的示例-机器学习-技术-爱吧机器人网

如何在机器学习项目中使用统计方法的示例

2018-07-23 云栖社区浏览量：

统计学和机器学习是两个密切相关的领域。两者的界限有时非常模糊，例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目中的问题。事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。

在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。这将证明，统计学的有效知识对解决预测建模问题是必不可少的。

1、问题框架

在预测建模问题中，影响最大的可能就是问题框架了。它要对问题类型做不同的选择，例如选择回归或分类，以及问题的输入输出的结构和类型。

问题框架并不总是显而易见的。对于该领域的初入门者，需要对领域的观察发现结果进行深入研究。而对于那些总是从传统角度看待问题的领域专家来说，则需要从多角度考虑数据。

在构思问题框架时统计学方法能够帮助探索数据，包括：

·探索性数据分析：通过总结和可视化探索数据的ad hoc视图。

·数据挖掘：自动发现数据中的结构化关系和模式。

2、数据理解

数据理解意味着要对变量的分布和变量之间的关系有一个深入的了解。这些知识有些来自领域的专业知识，或者需要专业知识来解释。然而，不论是领域专家还是新手都是从这个领域的观察资料中获益。

统计方法的两大分支可用于帮助理解数据：

·汇总统计：该方法使用统计量总结变量之间的分布和关系。

·数据可视化：该方法使用可视化方法(如图解、散点图、曲线图)来总结变量之间的分布和关系。

3、数据清理

通过直接观察发现的成果，往往不能作为最原始的数据。因为尽管数据是数字化的，它还是会受到进程的影响损害数据保真度，并且反过来这些数据还会对下游进程或模型造成影响。

一些例子包括：

·数据损坏。

·数据错误。

·数据丢失。

识别和修复数据问题的过程被称为数据清理。

统计学中有些方法可用来进行数据清理，例如：

·异常点检测：识别分布中远离预期值的异常值。

·归责：修复或填充观察结果中的损坏值或缺失值。

4、数据选择

在建模时，并非所有的观察值或所有的变量都是相关的。

将数据范围不断缩小，直到剩余元素对预测结果最有效的过程称为数据选择。

用于数据选择的两种统计方法为：

·数据样本：系统地从较大数据集中创建小的具有代表性的样本。

·特征选择：自动识别与输出结果最相关的变量。

5、数据准备

通常数据是不能直接用于建模的。所以为了匹配已选好的问题框架或学习算法，要对数据进行一些转换来改变数据的形状或结构。

可使用以下统计方法进行数据准备：

·扩展：如标准化、规范化等方法。

·编码：类似整数编码和热编码的方法。

·变换：类似Box-Cox方法那样的功率转换方法。

6、模型评估

预测建模问题的关键是评估学习方法，当在训练模型中对没见过的数据进行预测时，需要对模型的技能进行评估。这种训练和评估预测模型的过程称为实验设计。

·实验设计：该方法能够通过设计系统实验来比较独立变量对输出结果的影响，如机器学习算法的选择对预测精度的影响。

有些实验设计的方法可以重新采样数据集，从而更经济的使用数据来预估模型技能。

·重采样方法：为了训练和评估预测模型，系统地将数据集分成子集的方法。

7、模型配置

一个给定的机器学习算法通常具有一套超参数，通过超参数实现对特定问题量身定制学习方法。超参数的配置本质上是经验性的而不是分析性的，所以需要大量实验来评估不同超参数值对模型技能的影响。

使用统计的两个子领域之一对不同超参数配置之间的结果进行解释和比较，即：

·统计假设检验：该方法能在给定结果的假设或预期的情况下，量化观察结果的可能性。

·估算统计：能够用置信区间量化结果的不确定性。

8、模型选择

众多机器学习算法中的某一个也许刚好适用于给定的预测建模问题。所以，选择一种方法作为解决方案的过程称为模型选择。这可能会涉及到一套标准，不仅要考虑项目利益相关方，还有对问题评估方法预测技巧的要求。

可以使用与模型配置一样的两类统计方法来解释不同模型的估算技能，即：统计假设检验和估算统计方法，从而实现模型选择。

9、模型表示

一旦最终模型得到训练，那它基于真实数据部署后就可以进行实际预测，并呈现出最终结果。

最终，模型表示的一部分包括展示模型的评估技能。

估计统计领域的一些方法可以通过使用容忍区间和置信区间，达到量化机器学习模型评估技能的不确定性。

·估计统计。该方法通过置信区间量化模型技能的不确定性。

10、模型的预测

最后，是时候使用最终模型对我们不知道的真实结果预测新数据了。预测中非常重要的一部分是量化预测的可信度。

我们可以使用与模型表示一样的估计统计方法来量化这种不确定性。

总结

通过本文，你应该了解到了统计方法在整个预测建模项目过程中的重要性。

精选推荐

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05] 莱布尼茨，德国哲学家、数学家、律师，历史上少见的通才1666年，德国博学家戈特弗里德·威廉·莱布尼茨（Gottfried Wilhelm Leibniz）发 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

为未来战场创造更有效的机器人美国陆军研究人工纳米马达

[2019-10-11] 为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友，美国陆军研究人员正在执行一项任务，即研究肌肉分子生命功能的价值，以及复制过 ...

机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25] 计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特（Robert Platt）说：“机器人手操作是下一步要解决的问题。想象一下，一个机器人可以在现实世界中用手去做事......

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11] 苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点，但今年似乎正在加速。 4月份，公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证，而在6月份，苹果公司首席执行官库......

瑞士研发出微型机器人集群可像蚂蚁一样互相交流并协同工作

[2019-07-12] EPFL（瑞士联邦理工学院）的研究人员受到了蚂蚁的启发，开发了一款仅有10克重的小型机器人：他们可以相互交流，分配角色并完成复杂的任务。 ...

哈佛大学《自然》发表新驱动技术，让飞行机器人悬停且不受损伤

[2019-11-06] 哈佛大学研究人员发表在《自然》杂志上的一项最新研究，他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂（RoboBee），这种机器人在撞墙、 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08] 随着无人机及其组件越来越小，效率越来越高，功能越来越强大，我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中，而不依赖于外部定位。宾夕法尼亚大学在......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

顶级AI会议NIPS压轴2017（附PPT、视频、代码大汇总）

[2017-12-19] NIPS，全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems)，是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习选择深层模型的原因

[1970-01-01] 深度学习采用的模型为深层神经网络（Deep Neural Networks，DNN）模型，即包含多个隐藏层（Hidden Layer，也称隐含层）的神经网络（Ne ...

机器学习—自由编码器

[1970-01-01] 一种常见的深层模型是由自编码器（Auto-Encoder）构造的。自编码器可以利用一组无标签的训练数据{x(1), x(2), &hellip }（其中x(i)是一个n ...

【NIPS最佳论文出炉】冷扑大师能战胜AlphaZero吗？No（Science论文）

[2017-12-19] 拿下NIPS2017 最佳论文，登上Science，“冷扑大师”最近有点热。18日，两位作者，CMU博士生Noam Brown和Tuomas Sandholm教授在Reddit上回答问题。对“为什么不使用深度学习......

日本开发团队给机器人嵌入神经网络

[2016-08-18] 　　近日在日本国立科学博物馆展出的机器人 Alter，可谓是目前世界上最为先进的机器人之一，因为它是一款嵌入了神经网络的机器人，来自日本 ...