爱吧机器人网 » 技术 > 机器学习 > 正文

机器学习创企最不可碰的九大陷阱!

从事IT领域工作二十年以来,我发现人工智能技术逐步从概念转向实际——机器学习技术位于前沿,并且变得更易于使用,即使对于没有专业知识的团队也是如此。

\

随着越来越多的团队使用预测模型,领导者和管理者必须意识到可能会扭曲团队工作结果的常见问题。为了实现可靠的机器学习过程,以下是要避免的九个常见陷阱,以及可采用的最佳实践方法。

陷阱1:抽样偏差

任何机器学习项目的起点都是选择训练数据。通常,组织机构有一些可用的数据,或者可以识别相关的外部供应商,例如国营企业或行业协会。这是问题开始的地方。

建模团队及其业务赞助商必须定义要使用的数据集。选择一个会歪曲或低估实际案例的数据集会很容易引起偏差,这会扭曲结果。例如,一个访问只选择在特定位置行走的人群,但却将他们当作健康人群的过度代表。

解决方案:为避免采样偏差,团队必须保证他们是真正地随机选择数据,而不是仅仅因为使用简单就使用特定案例。对于指导有效的数据选择而言,理想数据集的清晰定义和模型的逻辑至关重要。通过在早期阶段与企业所有者合作,让几位评审人员验证选择标准,机器学习团队可以确保他们的数据采样方法有用并可靠。

陷阱2:不相关的功能选择

在许多情况下,由于变量选择的细微差别,建模师遇见了许多困难。许多技术需要大量功能集来推动学习过程。但是,为了收集足够的学习数据,确保您获取了正确且相关的功能可能非常具有挑战性。

解决方案:构建一个性能良好的模型的过程需要仔细的探索和分析,以确保您选择和设计适当的功能。了解领域和包含主题专家,是选择正确功能最重要的两个驱动因素。此外,诸如递归特征消除(recursive feature elimination,RFE),随机森林(random forest),主成分分析(principal component analysis,PCA)和自动编码器等技术有助于将建模工作集中在少数几个更有效的功能上。

陷阱3:数据泄露

机器学习团队可能会偶然地收集建模数据,使用的标准是团队试图预测结果的一部分,因此,模型会显示出优秀到失真的性能。例如,一个团队可能错误的包含了一个在旨在预测疾病的模型中指示某些疾病治疗的变量。

解决方案:建模团队必须仔细构建他们的数据集,在模型估计结果之前仅使用训练时实际可用的数据。

陷阱4:缺少数据

在某些情况下,由于缺少某些记录,数据集会变得不完整。错误地调整该条件或假设没有缺失值,建模师可能会对结果的认知产生重大偏差。例如,缺失的数据可能并不总是随机的,例如,当调查受访者不太可能回答某个特定问题时。因此,平均估算可能会误导模型。

解决方案:如果您无法设计培训计划以确保使用完整的数据集,则可以采用统计技术,包括丢弃缺失值的记录,或使用适当的插补策略来估算缺失的数据值。

陷阱5:不准确的缩放和标准化

构建用于机器学习工作的数据集通常需要团队收集不同类型的输入端,这些输入端有着不同的衡量尺度。在建立模型之前,如果未能调整变量的值以允许通用比例,线性回归(linear regression),支持向量机(support vector machine,SVN),或k近邻(k nearest neighbors,KNN)等算法会受到很大影响。这些问题的出现在于范围大的话会导致功能的高度变化,因此,它们可能变得多余。例如,如果您将两者都当作未处理的投入使用,那么薪水的数据可能会获得比年龄更重的权重。

解决方案:在开始建立模型之前,您必须小心地对数据集进行标准化。您可以通过常用统计技术(如标准化或功能缩放)来转换数据集,这取决于数据的类型和团队的首选算法。

陷阱6:忽略异常值

忘记异常值可能会对模型的性能产生重大影响。例如,像AdaBoost这样的算法会将异常值视为困难情况,并将不适当的权重放在适当的位置上,而决策树更宽容。此外,不同的用例需要不同的离群值处理。例如,在发现欺诈行为的情况下,应重点关注存款中异常值。

解决方案:要解决此类问题,您的团队应该使用建模算法,它能够正确处理异常值,或者在建模前过滤异常值。良好的开端在于让您的团队做一个初步检查,以确定数据中是否存在异常值。最简单的方法是审查数据的图标或检查任何数值,它们可能是几个标准差,或更远离平均值的数值。

陷阱7:计算错误功能

当一个团队为建模提供投入时,微分过程中的任何错误都可能会为模型带来误导性输入。毫无例外,无论团队如何构建,模型都出乎意料地产生了不可靠的结果。这个问题的一个例子是,一个团队弱化了一个依赖于计算的利用率的信用评分预测模型,因为这个团队包括来自信用报告的不活跃贸易信息。

解决方案:建模师必须仔细检查团队如何获取数据。关键的出发点是要了解哪些功能是原始格式,哪些是经过设计的。自此,建模师就可以在进行建模之前检查衍生功能的假设和计算。

陷阱8:忽略多线投入(multi-collinear inputs)

使用数据集而不考虑多重共线性预测因子(multi-collinear predictors)是误导模型建构的另一种方式(多线性输入的存在意味着两个或多个变量之间存在着很高的相关性)。结果使其很难识别任何一个变量的影响。在这种情况下,选定功能的微小变化会对结果产生重大影响。这个问题的一个例子是,广告预算和流量作为预测变量呈现共线性。

解决方案:检测多重共线性的简单方法是计算所有变量对应的相关系数。之后您就有诸多选择来解决任何确定的共线性问题,如建筑构图或删除冗余变量。

陷阱9:无效绩效KPI

当建模数据各种进程进入平衡状态时,大多数建模算法表现最好。当数据显示不平衡时,衡量模型性能的正确指标变的至关重要。例如,平均违约率为1.2%。一个模型的准确度能达到98%,预测在所有情况下都不会发生变化。

解决方案:除非可以选择生成更均衡的训练集,或使用基于成本的学习算法,选择业务驱动的绩效指标是最好的解决方案。对于超出准确度的模型的绩效有着各种措施,如精确度,召回率,F1得分和受试者工作特征(receiver operating characteristic,ROC)曲线。选择最合适的度量标准将指导建模算法错误最小化。

从坚实的基础开始

由于技术和工具的进步,机器学习培训项目比以往更容易执行。但是,要获得可靠的结果需要对数据科学和统计学原理有深入的了解,如此才能确保团队从一个坚不可摧的底层数据集开始,这边是成功的基础。

Pejman Makhfi是Credit Sesame的首席技术官。Credit Sesame是一个教育信贷和个人财务网站,为消费者提供免费的信用评分服务。

上一篇:期待已久的Ubuntu 18.04 LTS正式发布 适用于机器学习
下一篇:实用:用深度学习方法修复医学图像数据集
精选推荐
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

[2017-03-02]   随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中,游戏规则的改变者。 机 ...

顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)

[2017-12-19]  NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习之——正则化

[2018-05-18]  最近在刷李航的《统计学习方法》这本书,在很多算法的损失函数里,都出现类似的描述:损失函数最小化原则一般就是用正则化的极大似然估计进 ...

机器学习算法可预测出乳腺癌治疗率(图)

[1970-01-01]    据外媒报道,患有同种疾病的不同病人在接受同一种治疗方案时,其获得的疗效也会存在不同,这就给医生留下了一个难题:他们怎样才能知道 ...