爱吧机器人网 » 技术 > 机器学习 > 正文

实战:分类算法实践及如何用好Python工具

核心提示:学好机器学习、深度学习,我们在吃透思想、原理、算法的同时,必须用好python工具,就拿本文说的分类算法,总结来说,python主要需要记住几点

古语有:工欲善其事必先利其器。我们学习机器学习、深度学习,首先就是深悟思想、理解原理、吃透算法,其次就是数学逻辑及推演过程,最后,也是最重要的就是实战,而学习人工智能,我们首选的重要工具就是Python,如何学习Python,这个见仁见智,不同的人有不同的学习路线,主要的有两种,一种是专门学习Python工具,然后再用,一种是将学习Python与各种算法实践、各种应用结合起来,正所谓"在学中用、在用中学",我们推荐后者。

本文以基于mnist数据的分类实践为示例,讲解如何边进行分类实验边学习python:

一、数据准备

1、我们用Python3:

Python 3.6.1 (default, Jun 6 2017, 11:38:19)

[GCC 4.2.1 Compatible Apple LLVM 8.1.0 (clang-802.0.42)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

2、加载数据集:

1)我们使用scikit-learn库,下面导入sklearn中的数据集,sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,主要有三种形式:load_、fetch_及make_的方法

>>> from sklearn.datasets import fetch_mldata

>>> mnist = fetch_mldata('MNIST original')

>>> mnist

{'DESCR': 'mldata.org dataset: mnist-original', 'COL_NAMES': ['label', 'data'], 'target': array([ 0., 0., 0., ..., 9., 9., 9.]), 'data': array([[0, 0, 0, ..., 0, 0, 0],

[0, 0, 0, ..., 0, 0, 0],

[0, 0, 0, ..., 0, 0, 0],

...,

[0, 0, 0, ..., 0, 0, 0],

[0, 0, 0, ..., 0, 0, 0],

[0, 0, 0, ..., 0, 0, 0]], dtype=uint8)}

>>> X,y=mnist["data"],mnist["target"]

>>> X.shape

(70000, 784)

>>> y.shape

(70000,)

2)sklearn 加载的数据集有着相似的字典结构:

DESCR 键描述数据集;

data 键存放一个数组,数组的一行表示一个样例,一列表示一个特征;

target 键存放一个标签数组;

所以,mnist["data"]是mnist数据中非标签数据矩阵,mnist["target"]是mnist数据中标签数据,单列。

3)shape是numpy中的方法,可获得矩阵的行数、列数,shape[0]得到矩阵的行数。

3、mnist 数据集简介

1) MNIST 有 70000 张图片,每张图片有 784 个特征。每个图片都是 28*28 像素,并且每个像素的值介于 0~255 之间。让我们看一看数据集的某一个数字。只要将某个实例的特征向量, reshape 为 28*28 的数组,然后使用 Matplotlib 的 imshow 函数就可以把图片展示出来。

2) reshape()是数组对象中的方法,用于改变数组的形状,已经展开为784个特征的列向量,再折叠成矩阵。

>>> import matplotlib

>>> import matplotlib.pyplot as plt

>>> some_digit = X[36000]

>>> some_digit_image = some_digit.reshape(28, 28)

>>> plt.imshow(some_digit_image, cmap = matplotlib.cm.binary, interpolation="nearest")



>>> plt.axis("off")

(-0.5, 27.5, 27.5, -0.5)

>>> plt.show()

重磅实战:分类算法实践及如何用好Python工具
二、训练一个二分类器

1、创建训练集、测试集

>>>X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

>>>y_train_5 = (y_train == 5)

>>>y_test_5 = (y_test == 5)

1)我们把MNIST 数据集已经事先被分成了一个训练集(前 60000 张图片)和一个测试集(最后 10000 张图片)

2)取一个列表前多少个元素用X[:i],到后多少个元素用X[i:]

3)简化一下问题,只尝试去识别一个数字,比如说,数字 5。这个"数字 5 检测器"就是一个二分类器,能够识别两类别,"是 5"和"非 5"。让我们为这个分类任务创建目标向量y_train_5、y_test_5

2、选择随机梯度下降法

1)从sklearn.linear 导入SGDClassifier。分类器参数每次都会变,如果想重现结果,可以固定这个参数

>>>from sklearn.linear_model import SGDClassifier

>>>sgd_clf = SGDClassifier(random_state=42)

>>>sgd_clf.fit(X_train, y_train_5)

2)fit函数的两个参数分别是特征数据矩阵和目标列

3)用predict获得结果

>>> sgd_clf.predict([some_digit])

array([ True], dtype=bool)

3、评估分类器性能

1)使用交叉验证测量准确性,类似于cross_val_score()

,我们实现自己版本的交叉验证

from sklearn.model_selection import StratifiedKFold

from sklearn.base import clone

skfolds = StratifiedKFold(n_splits=3, random_state=42)

for train_index, test_index in skfolds.split(X_train, y_train_5):

clone_clf = clone(sgd_clf)

X_train_folds = X_train[train_index]

y_train_folds = (y_train_5[train_index])

X_test_fold = X_train[test_index]

y_test_fold = (y_train_5[test_index])

clone_clf.fit(X_train_folds, y_train_folds)

y_pred = clone_clf.predict(X_test_fold)

n_correct = sum(y_pred == y_test_fold)

print(n_correct / len(y_pred))

0.9502, 0.96565 and 0.96495

(1) StratifiedKFold 类实现了分层采样,生成的折(fold)包含了各类相应比例的样例。在每一次迭代,上述代码生成分类器的一个克隆版本,在训练折(training folds)的克隆版本上进行训练,在测试折(test folds)上进行预测。然后它计算出被正确预测的数目和输出正确预测的比例。

(2) StratifiedKFold返回的skfolds用split函数分成训练集、测试集

2)使用 cross_val_score() 函数来评估 SGDClassifier 模型。

同时使用 K 折交叉验证,此处让 k=3 。记住:K 折交叉验证意味着把训练集分成 K 折(此处 3 折),然后使用一个模型对其中一折进行预测,对其他折进行训练。

>>> from sklearn.model_selection import cross_val_score

>>> cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")

array([ 0.9502 , 0.96565, 0.96495]

3)混淆矩阵

需要有一系列的预测值,这样才能将预测值与真实值做比较。如果在测试集上做预测,这是在验证模型阶段,现在我们是在模型训练阶段,所以我们使用 cross_val_predict() 函数。

>>>from sklearn.model_selection import cross_val_predict

>>>y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

就像 cross_val_score() ,cross_val_predict() 也使用 K 折交叉验证。它不是返回一个评估分数,而是返回基于每一个测试折做出的一个预测值。

>>> from sklearn.metrics import confusion_matrix

>>> confusion_matrix(y_train_5, y_train_pred)

array([[53272, 1307],

[ 1077, 4344]])

混淆矩阵中的每一行表示实际, 而每一列表示预测。该矩阵的第一行负样本(非5)中的 53272 张被正确归类(被称为真反例,true negatives), 而其余1307 被错误归类为正样本(是 5) (假正例,false positives)。第二行正样本(是 5)中的 1077被错误地归类(假反例,false negatives),其余 4344 正确分类为正样本 (是 5类)(真正例,true positives)。一个完美的分类器将只有真反例和真正例,所以混淆矩阵的非零值仅在其主对角线。

4)准确率与召回率

Scikit-Learn 提供了一些函数去计算分类器的指标,包括准确率和召回率。

了解一下SGDClassifier 是如何做分类决策的。对于每个样例,它根据

决策函数计算分数,如果这个分数大于一个阈值,它会将样例分配给正例,否则它将分配给反例。

>>> from sklearn.metrics import precision_score, recall_score

>>> precision_score(y_train_5, y_pred)

0.76871350203503808

>>> recall_score(y_train_5, y_train_pred)

0.79136690647482011

需要再次使用 cross_val_predict() 得到每一个样例的分数值,但是这一次指定返回一个决策分数,而不是预测值。

>>> y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3,method="decision_function")

对于任何可能的阈值,使用 precision_recall_curve() ,你都可以计算准确率和召回率,并绘出曲线。

>>> from sklearn.metrics import precision_recall_curve

>>> precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):

plt.plot(thresholds, precisions[:-1], "b--", label="Precision")

plt.plot(thresholds, recalls[:-1], "g-", label="Recall")

plt.xlabel("Threshold")

plt.legend(loc="upper left")

plt.ylim([0, 1])

plot_precision_recall_vs_threshold(precisions, recalls, thresholds)

plt.show()

重磅实战:分类算法实践及如何用好Python工具
5)ROC曲线

受试者工作特征(ROC)曲线是另一个二分类器常用的工具。它非常类似与准确率/召回率曲线,但不是画出准确率对召回率的曲线,ROC 曲线是真正例率(召回率)对假正例率的曲线。假正率,是反例被错误分成正例

的比率。它等于 1 减去真反例率。

所以 ROC 曲线画出召回率对(1 减特异性)的曲线。

为了画出 ROC 曲线,你首先需要计算各种不同阈值下的 TPR、FPR,使用 roc_curve() 函数:

>>> from sklearn.metrics import roc_curve

>>> fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

def plot_roc_curve(fpr, tpr, label=None):

plt.plot(fpr, tpr, linewidth=2, label=label)

plt.plot([0, 1], [0, 1], 'k--')

plt.axis([0, 1, 0, 1])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plot_roc_curve(fpr, tpr)

plt.show()

重磅实战:分类算法实践及如何用好Python工具
后记:

学好机器学习、深度学习,我们在吃透思想、原理、算法的同时,必须用好python工具,就拿本文说的分类算法,总结来说,python主要需要记住几点

  • python列表的使用;
  • sklearn常用模块sklearn.datasets、sklearn.model、sklearn.base、sklearn.linear、sklearn.metrics;
  • sklearn常用方法SGDClassifier 、StratifiedKFold、cross_val_score、cross_val_predict、precision_recall_curve、roc_curve;
  • matplotlib.pyplot模块使用;
  • plot函数使用
各位如有任何问题,欢迎留言或者私信交流。

重磅实战:分类算法实践及如何用好Python工具


上一篇:AutoML:深度学习的学习器
下一篇:打基础之,LeetCode算法题第7日刷,数组分区

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

王海峰揭秘机器人如何思考

[1970-01-01]    在很多科幻电影中,智能机器人似乎是个永恒不变的话题。从《人工智能》中被输入情感程序的机器男孩大卫,到《Her》中男主人公爱上了他 ...

IBM与Spark合作 引领机器学习新时代

[1970-01-01]    Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料 ...

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

解密百变机器人一天的工作

[1970-01-01]  你造吗?百变机器人是这样工作的    偶开了一个小的医疗器械工厂,不久前,面试了一个最让我满意的工人:他高智商,好体力,一天可以工 ...

精选推荐

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......