爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

大数据虽然很火,但我们用数据发声,用事实说话,大数据真的没有那么普及,小数据目前还是主流。如果用“n=all”来代表大数据,那么就可以用“n=me”来说明小数据(这里n表示数据大小),我们将会看到,小数据更是关系到我们的切身利益。

美国著名科技历史学家梅尔文 克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]: 技术是总是配 套 而来的,但这个 套 有大有小(Technology comes in packages, big and small) 。

这个定律用在当下,是非常应景的。因为,我们正步入一个 大数据(big data) 时代,但对于以往的 小数据(small data) ,我们能做到 事了拂衣去,深藏身与名 吗?答案显然不是。目前,大数据的前途似乎 星光灿烂 ,但小数据的价值依然 风采无限 。克兰兹伯格的第三定律是告诉我们,新技术和老技术的自我革新演变,是交织在一起的。大数据和小数据,他们 配套而来 ,共同勾画数据技术(Data Technology,DT)时代的未来。

对大数据的 溢美之词 ,已被舍恩伯格教授、涂子沛先生等先行者及其追随者夸得泛滥成灾。但正如您所知,任何事情都有两面性。在众人都赞大数据很好的时候,我们也需说道说道大数据可能面临的陷阱,只是为了让大数据能走得更稳。在大数据的光晕下,当渐行渐远渐无小数据时,我们也聊聊小数据之美,为的是 大小并行,不可偏废 。大有大的好,小有小的妙,如同一桌菜,哪道才是你的爱?思量三番再下筷。

下文部分就是供读者 思量 的材料,主要分为4个部分:(1)哪个V才是大数据最重要的特征?在这一部分里,我们聊聊大数据的4V特征中,哪个V才是大数据最贴切的特征,这是整个文章的行文基矗(2)大数据的力量与陷阱。在这一部分,我们聊聊大数据整体的力量之美及可能面临的3个陷阱。(3)今日王谢堂前燕,暂未飞入百姓家,在这一部分,我们要说明,大数据虽然很火,但我们用数据发声,用事实说话,大数据真的没有那么普及,小数据目前还是主流。(4)你若安好,便是晴天。在这一部分,我们说说的小数据之美,如果用 n=all 来代表大数据,那么就可以用 n=me 来说明小数据(这里n表示数据大小),我们将会看到,小数据更是关系到我们的切身利益。

1.哪个V才是大数据最重要的特征?

在谈及大数据时,人们通常用4V来描述其特征,即4个以V为首字母的英文:Volume(大量)、Variety(多样)、Velocity(速快)及Value(价值)。如果 闲来无事 ,我们非要对这4个V在 兵器谱 上排排名,哪个才是大数据的贴切的特征呢?下面我们简要地说道说道,力图说出点新意,分析的结果或许会出乎您的意料之外。

1.1 大 有不同 Volume(大量)

首先我们来说说大数据的第一个V Volume(大量)。虽然数据规模巨大且持续保持高速增长,通常作为大数据的第一个特征。但事实上,早在20年前,在当时的IT环境下,天文、气象、高能物理、基因工程等领域的科研数据量,已是这些领域无法承受的 体积 之痛,当时实时计算的难度不比现在小,因为那时的存储计算能力差,亦没有成熟的云计算架构和充分的计算资源。

况且, 大 本身就是一个相对的概念,数据的大与小,通常都打着很强的时代烙樱为了说明这个观点,让我们先回顾一下比尔 盖茨的经典 错误 预测。

\图1 比尔盖茨于1981年对内存大小的预测

早在1981年,作为当时的IT精英,比尔盖茨曾预测说, 640KB的内存对每个人都应该足够了(640KB ought to be enough for anybody) 。但30多年后的今天,很多人都会笑话盖茨,这么聪明的人,怎么会预测地如此不靠谱,现在随便一个智能手机(或笔记本电脑)的内存的大小都是4GB、8GB的。

但是,需要注意的事实是,在1981年,当时的个人计算机(PC)是基于英特尔CPU 8088芯片的,这种CPU是基于8/16位(bit)混合构架的处理器,因此,640KB已经是这类CPU所能支持的寻址空间的理论极限(64KB)的10倍[2],换句话说,640K在当时是非常非常地庞大了!再回到现在,当前PC机的CPU基本都是64bit的,其理论支持的寻址空间是2^64,而现在的4G内存,仅仅是理论极限的(2^32)/(2^64)= 1/(2^32)而已#

在这里,讲这个小故事的原因在于,衡量数据大小,不能脱离时代背景,不能脱离行业特征。此外,大数据布道者舍恩伯格教授在其著作《大数据时代》中指出[3],大数据在某种程度上,可理解为 全数据(即n=all) 。有时,一个所谓的 全 数据库,并不需要有以TB/PB计的数据。在有些案例中,某个 全 数据库大小,可能还不如一张普通的仅有几个兆字节(MB)数码照片大,但相对于以前的 部分 数据,这个只有几个兆字节(MB)大小的 全 数据,就是大数据。故此,大数据之 大 ,取义为相对意义,而非绝对意义。

这样看来,互联网巨头的PB级数据,可算是大数据,几个MB的全数据也可算是大数据,如此一来, 大数据之 大 大 有不同,可大可小,如此不 靠谱 ,反而不能算作大数据最贴切的特征。

1.2 数据共征 Velocity(快速) 与 Value(价值)

英特尔中国研究院院长吴甘沙先生曾指出,大数据的特征 Velocity(快速) ,犹如 天下武功,唯快不破 一样,要讲究个 快 字。为什么要 快 ?因为时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据 矿山 , 挖矿 效率是竞争优势。

不过,青年学者周涛教授却认为[4],1秒钟算出来根本就不是大数据的特征,因为 算得越快越好 ,人类自打有计算这件事情以来,这个诉求就没有变化过,而现在,却把它作为一个新时代的主要特征,完全是无稽之谈。 笔者也更倾向于这个说法,把一个计算上的 通识 要求,算作一个新生事物的特征,确实欠妥。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

南加州大学机器人学家:机器人更适合粗暴的爱
南加州大学机器人学家:机器人更适合粗暴的爱

[2019-11-07]  图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱,当人类粗暴的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物 ...

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...