爱吧机器人网 » 技术 > 机器学习 > 正文

关于应用机器学习作为搜索问题的入门简介

核心提示:机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念

应用机器学习很具挑战性,因为设计完美的学习系统相当困难。
 
一个问题永远没有最好的训练数据集或者最好的算法,最好的只能是目之所及。
 
机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念。
 
阅读完本译文你会了解到:
 
1.应用机器学习是一个逼近未知映射(输入到输出)函数的问题。
 
2.设计上的某些决定比如数据和算法的选择局限了映射函数的选择。
 
3.机器学习的搜索概念化有助于合理地选择集成算法,算法的查验以及理解算法在学习的过程。
 
现在一起来看下吧
 
\
 
概述
 
本文分为5部分,分别是:
 
1.函数近似问题
 
2.搜索里的函数近似
 
3.数据的选择
 
4.算法的选择
 
5.机器学习作为搜索的影响
 
函数近似问题
 
应用机器学习是一种学习系统的发展,目的是为解决具体的学习问题。
 
学习问题指有可观察的输入和输出,并且二者存在某种未知但内在的关系。
 
学习系统的目的是学习输入与输出之间可推广普遍适用的映射,从而可以从同一问题领域内的新输入数据里预测输出。
 
从统计学习,即统计角度下的机器学习,这个问题可以定义为求解给定输入X和对应的输出y之间的映射函数f。
 
y = f(X)
 
我们有X和y,目的是尽最大可能得到这样一个函数fprime,可以使得在给定新数据Xhat的情况下,得到的预测结果yhat接近真实输出。
 
yhat = fprime(Xhat)
 
由此而见应用机器学习可以被看作函数近似的问题。

\
 
习得的映射一定不会完美。
 
设计和建立这样的学习系统实际上是寻找潜在而未知的从输入变量到输出变量之间的映射函数。
 
我们不知道这个函数的具体形式,因为如果我们知道就不必去找了, 直接用它解决问题就可以了。
 
正因为我们不知道真正的底层函数,我们必须采用逼近的方法,这也意味着我们不知道而且可能永远不知道我们距离那个真正的映射函数有多远。
 
搜索里的函数近似
 
我们需要根据实际的问题和目标找到那个足够近似的映射函数。
 
然而实际学习过程里很多噪音导致错误,这使得学习变得更加挑战,而结果找到的目标函数差强人意。比如:
 
问题定义的选择
 
训练数据集的选择
 
训练数据集的准备(清洗,处理等)的选择
 
预测模型的表达形式的选择
 
算法的选择(模型比较好地契合训练集)
 
预测模型的评估
 
以及更多其他因素。
 
可以看到在学习过程中有很多决策点(决策的关键点),但是它们在此之前都是未知的。
 
你可以把学习系统的学习当做一个很大的搜索空间,每个决策点都帮助减少搜索的范围。

\
 
举个例子,如果学习问题是预测花朵的种类,那么你可以减少搜索的范围:
 
选择定义问题为预测花的种类,如分类
 
选择某种类以及类属种类的花的测量方式
 
选择某个具体的花棚里的花作为训练样本
 
选择决策树模型,因为该模型解释度高
 
选择CART算法来契合决策树
 
选择分类准确率作为评估标准
 
也许你会发现建立学习系统的众多决策中有自然的层级式关系,其中每个决策都有助于减少搜索空间。
 
搜索空间的减少实际上引入了有益的偏差,它会有意选择那些更可能靠近底层映射函数的学习系统。偏差即在高层定义函数的时候发挥用处,同时也在底层算法以及其配置问题上有帮助。
 
数据的选择
 
机器学习问题的架构选择和用于训练系统的数据是学习系统开发中的一个重要因素。
 
你无法一开始就能获取所有的数据:即所有输入和与之对应的输出。如果你已经有了全部的数据,那么也就不需要预测模型就能对新的输入观测值进行输出预测了。
 
你肯定会有一些输入输出组的历史记录。如果没有,那你就没有任何数据来训练你的预测模型。
 
也许你有很多数据,但你只需要选择其中的一部分用来训练学习系统。或者,也许你可以随意生成数据,而挑战在于生成或收集什么数据以及要生成多少数据。
 
选择用来对学习系统建模的数据必须能够充分地俘获输入和输出数据之间的关系。这些数据既包括现有的数据,也包括预测模型将要预测的数据。

\
 
算法的选择
 
您必须选择模型的表示形式和用于在训练数据上拟合模型的算法。这是影响学习系统发展的另一个重要因素。

\
 
项目的利益相关人员对项目施加约束是很常见的,例如模型要能够解释预测,而这反过来又对最终模型的表示形式,以及你可以搜索的映射范围施加了约束。但是,这个决策通常被简化为对算法的选择。

\
 
机器学习作为搜索的意义
 
这种将学习系统的开发概念化为搜索问题有助于阐明应用机器学习中的许多相关方面,本节将讨论其中几个方面。
 
迭代学习算法
 
用于学习映射的算法将施加进一步的约束,它与所选择的算法配置一起,将在模型拟合后控制如何引导可能的候选映射空间(例如机器学习算法中的迭代学习)。
 
在此,我们可以看到,机器学习算法从训练数据中学习的行为实际上有望引导学习系统可能的映射空间从差到好,逐渐优化(如爬山算法)。

\
 
集成的理论基础
 
我们也可以看到不同的模型表示在所有可能的函数映射的空间中占据着完全不同的位置,而在进行预测时(例如不相关的预测误差)又有着完全不同的行为。
 
这为集成学习方法提供了一个概念性的理论基础。集成学习结合了多种巧妙的预测模型的预测结果。

\
 
抽样检查理论
 
具有不同表示方式的不同算法可以从可能函数映射空间中的不同位置开始,并以不同的方式引导该空间。
 
如果这些算法引导的约束空间都是由合适的架构所限定,而且有良好的数据,那么大部分的算法都可能会发现良好而且相似的映射函数。
 
我们还可以看到,如果有一个好的架构和精心挑选的训练数据,那么通过现代强大的机器学习算法就可以开辟一个候选映射空间。
 
这为在给定的机器学习问题上对一套算法进行抽样检查有助于找到最优或选择最省的结果(例如奥卡姆剃刀理论)提供了理论基础。
 
延伸阅读
 
如果您想深入研究的话,本节将提供更多关于该主题的资源。
 
Chapter 2, Machine Learning, 1997.
 
Generalization as Search, 1982.
 
Chapter 1, Data Mining: Practical Machine Learning Tools and Techniques, 2016.
 
On algorithm selection, with an application to combinatorial search problems, 2012.
 
Algorithm Selection on Wikipedia
 
总结
 
在这篇译文中,您掌握了作为搜索问题的应用机器学习的概念。具体来说,你学习了:
 
1.应用机器学习是一个从输入到输出的未知的潜在映射函数的近似解问题。
 
2.诸如数据的选择和算法的选择这样的设计决策缩小了最终可能选择的映射函数的范围。
 
3.机器学习作为搜索的概念有助于为集合学习的使用、算法的抽样检查提供理论基础,并有助于理解算法学习时的内部原理。

上一篇:机器学习之Naive Bayes朴素贝叶斯算法
下一篇:40道题检测你的机器学习掌握程度

本周栏目热点

深度学习之生成式对抗网络(GAN)入门指南

[2017-12-25]  本文将介绍GAN的基础概念及其工作方式,并辅之以有趣案例的实现方法和重要资源,方便初学者训练、使用。2014年Ian J Goodfellow等人首先提出生成对抗网络(Generative Ad......

实用:用深度学习方法修复医学图像数据集

[2018-05-04]  医学图像数据很难处理,经常包含旋转倒置的图像。这篇文章介绍如何利用深度学习以最小的工作量来修复医疗影像数据集,缓解目前构建医疗 AI 系统中收集和清洗数据成本大的问题...

Graphcore 研发出AI芯片让机器学习提速百倍

[2017-12-15]  作为英国最热门的创业公司之一,Graphcore专注于加速复杂机器学习模型的训练以及推断过程。他们正在开发人工智能芯片,以降低企业数据中心和云端使用AI应用程序的成本,并将性......

解密百变机器人一天的工作

[1970-01-01]  你造吗?百变机器人是这样工作的    偶开了一个小的医疗器械工厂,不久前,面试了一个最让我满意的工人:他高智商,好体力,一天可以工 ...

深度学习算法研究现状

[2017-12-12]  深度学习便是人工智能领域的最新热点。它被广泛的运用在图像识别、语义理解等等方面。近来谷歌研究院的围棋机器人Alpha Go,也部分使用了深度学习技术。...

成功构建一个机器学习模型需避免这9个错误

[2018-07-10]  随着越来越多的团队使用预测模型,企业领导者和管理者必须意识到可能扭曲团队工作结果的常规问题。 以下是要避免的九个常见问题,最好的做法是遵循,以实现一个可靠的机器学......

Judea Pearl:传统机器学习于因果层级底层,达成完备AI的7个工具

[2018-07-12]  机器学习的巨大成功带来了 AI 应用的爆炸式增长以及对具备人类级别智能的自动化系统不断增长的期望。然而,这些期望在很多应用领域中都遇到了基本的障碍。其中一个障碍就是......

精选推荐

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

德国研发出一种能在你体内工作的微型机器人

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...