爱吧机器人网 » 技术 > 机器学习 > 正文

BAT面试官最喜欢问的问题之一:算法Kmeans优化算法有?

BAT面试官最喜欢问的问题之一:算法Kmeans优化算法有?
人工智能

KMeans算法的主要缺点有:

1)需要人工预先确定初始K值,且该值和真实的数据不一定能够吻合。

2)K均值只能收敛到局部最优,效果受到初始值的影响很大。

3)容易受到噪声的影响。

4)样本只能被划分到单一的类簇中。

Kmeans算法改进模型主要有Kmeans++和ISODATA算法

Kmeans++的主要是对K的选取进行优化, 假设已经选取了n个初始聚类中心,则在选取第n+1个聚类中心时,距离当前n个聚类中心越远的点会有更高的概率会被选为第n+1个聚类中心。在选取第一个聚类中心时同样通过随机的方法。当选择完初始点后,Kmeans++后续的计算都和经典的Kmeans算法相同,这也是对初始值选择进行改进的方法的共同点。

当K值的大小不确定时,可以使用ISODATA算法。ISODATA算法的全称是迭代自组织数据分析法。在Kmeans算法中,聚类个数K的值需要预先人为的确定,并在整个过程中无法更改。而当遇到高纬度、海量的数据集时,人们往往很难准确的估计出K的大小,ISODATA算法针对这个问题进行了改进,它的思想也很直观,当属于某个类别的样本数过少时,就把该类别踢掉;当属于某个类别的样本数过多、分散程度较大时,就把该类分成两个子类。ISODATA算法在Kmeans算法的基础上增加了两个操作,一个是分裂操作,对应着增加聚类中心数,二是合并操作,对应着减少聚类中心数。ISODATA虽然对Kmeans算法进行了优化,但它也有缺点,就是需要确定以下这些参数:

a 预期的聚类中心数K,在ISODATA运行过程中聚类中心可以变化,K是一个用户制定的参考值,该算法在聚类中心数目变动范围也由其决定。一般情况下,最终输出的聚类中心数据常见范围是从K的一半到两倍K。

b 每个类所要求的最少样本数目N,如果分裂后悔导致某个子类别所包含样本数目小于阈值,就不会对该类别进行分裂操作。

c 最大方差S,用于控制某个类别中样本的分散程度,当样本的分散程度超过这个阈值,分裂后满足a,进行分裂操作。

d 两个聚类中心之间所允许最小距离D,如果两个类靠的非常近,小于该阈值时,则对两个类进行合并操作。



上一篇:打基础之,LeetCode算法题第7日刷,数组分区
下一篇:美海军研究实验室研发新型数据高效的机器学习算法
精选推荐
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

麻省理工正研究植物机器人 让植物自主控制机器人
麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

[2017-03-02]   随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中,游戏规则的改变者。 机 ...

顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)

[2017-12-19]  NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习之——正则化

[2018-05-18]  最近在刷李航的《统计学习方法》这本书,在很多算法的损失函数里,都出现类似的描述:损失函数最小化原则一般就是用正则化的极大似然估计进 ...

机器学习算法可预测出乳腺癌治疗率(图)

[1970-01-01]    据外媒报道,患有同种疾病的不同病人在接受同一种治疗方案时,其获得的疗效也会存在不同,这就给医生留下了一个难题:他们怎样才能知道 ...