爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

这是大数据分析中的第二个容易跳入的陷阱。大数据的多样性里,包括了数据质量上的 混杂性 ,某些低频但很重要的弱信号,很容易被当作噪音过滤掉了!从而痛失发现 黑天鹅 事件的可能性。

再例如,在美国,学习飞机驾驶是件 司空见惯 的事,在几十万学习飞机驾驶的记录中,如果美国有关当局能注意到,有那么几位学员只学习 飞机起飞 ,而不学习 飞机降落 ,那么9/11事件或许就可以避免,世界的格局可能就此发生根本性的变化(当然,这个事件也为中国赢得了10年的黄金发展期,不在本文的讨论范围,就不展开说)。在大数据时代的分析中,很容易放弃对精确的追求,而允许对混杂数据的接纳,但过多的 混杂放纵 ,就会形成一个自设的陷阱。因此,必需 未雨绸缪 ,有所提防。

在大数据时代里,第三个值得注意的陷阱是,大数据的拥趸者认为,大数据可以做到 n=all (这里n数据的大小),因此无需采样,这样做也就不会再有采样偏差的问题,因为采样已经包含了所有数据。但事实上, n=all 很难做到,统计学家们花了200多年,总结出认知数据过程中的种种陷阱(如统计偏差等),这些陷阱不会随着数据量的增大而自动填平。

3.今日王谢堂前燕,暂未飞入百姓家 大数据没那么普及!

目前,虽然大数据被炒得火热,甚至连股票交易大厅的大爷大妈都可以聊上几句 大数据 概念股,但是大数据真的有那么普及吗?

事实上,倘若想要充分利用大数据,至少要具备3个条件:(1)拥有大数据本身;(2)具备大数据思维;(3)配备大数据技术。这三个高门槛,事实上,已经把很多公司企业拒之门外,套用刘禹锡那句诗:今日王谢堂前燕,不入寻常百姓家 大数据依然还是那么高大上,远远没有那么普及!

图8所示的是,著名IT咨询公司高德纳(Gartner)于2014年公布的技术成熟度曲线(hype cycle)。国内将 hype cycle 翻译成 成熟度曲线 ,实在是太过文雅了,直译为 炒作周期 也毫不为过。从图8可以看出,大数据已经过了炒作的高峰期,目前处于泡沫化的底谷期 (Trough of Disillusionment)。

在历经前面的科技诞生促动期 (Technology Trigger)和过高期望峰值期(Peak of Inflated Expectations)这两个阶段,泡沫化的底谷期存活下来的科技(如大数据),需要经过多方历练,技术的助推者,要么咬牙坚持创新,要么无奈淘汰出局,能成功存活下来的技术及经营模式,将会更加务实地茁壮成长。

李国杰院士在接受《湖北日报》的采访时,也表达了类似的观点, 大数据刚刚过了炒作的高峰期 [17]。冷静下来的大数据,或许可以走得更远。

\图8 高德纳技术成熟度曲线(图片来源:Gartner)

李国杰院士还表示,大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数规律发展的特点是,在一段时期衡量内(至少30年),前期发展慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持 指数性 增长,最后的结局,要么进入良性发展的稳定状态,要么走向消亡。

大数据的布道者们,张口闭口言称大数据进入PB时代了。例如,《连线》杂志的前主编克里斯 安德森早在2008年说: 在PB时代,数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。 但是这个吹捧也是非常不靠谱的,亦需要泼冷水还有大数据。

在大数据时代,我们要习惯让数据发声。下面的统计数据来自大名鼎鼎的学术期刊《科学》(Science)。2011年,《科学》调查发现[18],在 你科研过程中使用的(或产生的)最大数据集是多少? 的问卷调查中(如图9所示),48.3%的受访者认为他们日常处理的数据小于1GB,只有7.6%的受访者说他们日常用的数据大于1TB(1TB=1024GB,1PB=1024TB),也就是说,调查数据显示,92.4%用户所用的数据小于1TB,一个稍微大点的普通硬盘就能装载得下,这让那些动辄言称PB级别的大数据的布道者们情何以堪啊?而大数据重度鼓吹手IDC,目前正在为业界巨擘摇旗呐喊ZB时代(1ZB=1024PB),我们一定要冷眼看世界,慢慢等着瞧吧!

\图9 在你的科研中,你使用的(或产生)最大数据集是多大?(图片来源:科学期刊)

而在 你在哪里存储实验室产生的数据或科研用的数据? 问卷调查中,50.2%的受访者回答是在自己的实验室电脑里存储,38.5%受访者回答是在大学的服务器上存储。由此可见,大部分的数据依然处于数据孤岛状态,在数据流通性的道路是,依然 路漫漫其修远兮 。而数据的流通性和共享性,如前文所述,是大数据成败的前提。

\图10 你主要在哪里存储你实验产生的或科研数据?(图片来源:科学期刊)

或许也有读者不以为然,说我就是属于那部分小于7.6%的人(即使用或产生的数据大于1TB)。 我小众,我自豪 ,此类信心满满的人,大多来自主流的互联网公司,如Google、Yahoo、微软、Facebook等,而在国内的自然非BAT莫属了。事实上,即使来自这类大公司的日常业务,其数据集也不是那么大的 触目惊心 。

微软研究院资深研究员Antony Rowstron等人撰文指出[19],根据微软和Yahoo的统计,所有Hadoop的作业放一起,取个中间值,其输入数据集的大小也不过是14GB。即使是在大数据大户Facebook,其90%的作业输入数据集,也是小于100GB的(clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB)。那些动辄拿某个互联网巨头的数据体积总和,来 忽悠 大家的大数据布道者们,更应该借给受众们 一双慧眼 ,让他们 把这纷扰看得清清楚楚明明白白真真切切 。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

深度神经网络揭示了大脑喜欢看什么
深度神经网络揭示了大脑喜欢看什么

[2019-11-06]  爱吧机器人网编者按:近日,《自然-神经科学》发表了一篇论文,研究人员创建了一种深度人工神经网络,能够准确预测生物大脑对视觉刺激所产 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...