爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

因此,李国杰院士认为[6],数据的开放共享,提供了多种来源的数据融合机会,它不是锦上添花的事,而是决定大数据成败的必要前提。

从上分析可见,虽然大数据有很多特征(甚至有人整出11个V来),但大数据的多样性(Variety),无疑它是区分以往小数据的最重要特征。

2. 大数据的力量与陷阱

大数据的多样性,给大数据分析带来了庞大的力量,但这个多样性也带来了大数据的陷阱,下面我们就聊聊这个话题。

2.1 大数据的力量

很多小概率、大影响的事件(即黑天鹅事件),在单一的小数据环境下,很可能难以发现。但是由 八方来客 汇集而来的大数据,却能有机会提供更为深刻的洞察(insight)。例如,癌症属于一类长尾病症,经过多少年努力,癌症治愈率仅提升了不到8%。其中一个重要原因是,单个癌症的诊疗机构的癌症基因组样本都相对有限。 小样本 得出的研究结论,得出有关 癌症诊断 的结论,极有可能是 盲人摸象化 的[9]。

于是,英特尔公司提出的 数据咖啡馆 概念,吴甘沙先生做了一个形象的类比,他说咖啡馆的好处在于 Let ideas have sex ,而大数据产生价值、爆发力量的关键是 Let data have sex 。取意如此,数据咖啡馆 的核心理念在于,把不同医疗机构的癌症诊疗数据汇聚到一起,形成大数据集合,但不同机构间的数据, 相逢但不相识 。让多源头的 小数据 汇集起来,可实现数据之间 1+1>2 的价值。对多数据融合用 have sex 这个比喻,是非常有意思的,因为倘若你真想要达到 1+1> 2 的效果,就不能带着 套子 挡着,就要打破 数据流的割据 。难怪李院士一直强调,数据的流通性,是决定大数据成败的前提,还是真的(纯属调侃,不可较真)!

类似的,2014年美国总统办公室发布了题为 大数据:抓住机遇,留住价值(Big Data:Seizing Opportunities, Preserving Values) 的报告[10],文中列举了一个案例:

Broad 研究院(这是一个由麻省理工学院和哈佛大学联合创办的世界著名的基因研究机构)的研究人员发现,海量的基因数据,在识别遗传变异对疾病的意义中,有着及其重要的作用。在这个研究中,当样本数量是 3,500 时,与精神分裂症有关的遗传变异,根本无法检测出来;当使用 10,000 个样本时,也只能有细微的识别;但是当样本达到 35,000 时,统计学上的统计显著性(statistically significant)便突然显示出来。正如一个研究人员所观察到的那样, 跨越拐点,一切皆变!(There is aninflection point at which everything changes) [11](如图4所示)。从这个案例中,大数据把哲学中的 量变引发质变 演绎得淋漓尽致。

\图4 精神分裂症有关的遗传变异发现 大数据的 汇集 的力量(图中loci表示 基因座 ,又称座位,它基因在染色体上所占的位置。在分子水平上,是有遗传效应的DNA序列。图片来源:MIT)

2.2 大数据的陷阱

大数据的多样性,带人们来了 兼听则明 的智慧。然而,正如英谚所云: 一个硬币有两面(Every coin has two sides) , 这个多样性也会带来一些不宜察觉的 陷阱 。用 成也萧何,败也萧何 来描述大数据的两难,再恰当不过了。

2.2.1 DIKW金字塔体系

1989年,管理学家罗素 艾可夫(Russell .L. Ackoff)撰写了《从数据到智慧》(From Data to Wisdom),系统地构建了DIKW体系[12],即从低到高依次为数据(Data)、信息(Information)、知识(Knowledge)及智慧(Wisdom)。美国学者泽莱尼(Zeleny)提出了4个Know(知道)比喻[12],比较形象地区分了DIKW体系中的元素,如图5所示。

\图5 泽莱尼对DIKW体系中的4个Know比拟

泽莱尼对DIKW体系的注解,让人感触最深的可能在于,数据如果不实施进一步地处理,即使收集数据的容量再 大 ,也毫无价值,因为仅仅就数据本身,它们是 一无所知(Know-Nothing) 的。数据最大的价值,在于形成信息,变成知识,乃至升华为智慧。

舍恩伯格教授在其大作《大数据时代》有个核心观点是: 要相关,不要因果 ,即知道 是什么 就够了,没必要知道 为什么 。但从DIKW体系可知,如果放弃 为什么 的追寻,事实上,就放弃了对金字塔的最顶端 智慧(Wisdom)的追求 而智慧正是人类和机器最本质的区别。

对此,青年学者周涛教授总结得非常精彩: 放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始 。对大数据的因果性和相关性的探讨,我们已经在《来自大数据的反思:需要你读懂的10个小故事》一文中[14],已有涉及,在此不再赘言,下面我们想探讨的是,事实上,对因果关系的追寻,是人类惯有的思维,在这个惯性思维推动下,很容易误把 相关 当 因果 这是我们需要警惕的大数据陷阱。

2.2.2 误把 相关 当 因果

所谓 相关性 是指两个或两个以上变量的取值之间存在某种规律性。两个变量A和B有相关性,只反映A和B在取值时相互有影响,但并不能说明因为,有A就一定有B,或者反过来因为有B就一定有A。

在上面的论述中,似乎我们一直在说 相关性 的不足。而事实上,需要说明的是,相关性在很多场合是极其有用的。例如,在大批量的小决策上,相关性就是有用的,亚马逊的电子商务个性化推荐,就是利用相关性,给无数顾客推荐相关的或类似商品,这样顾客找起商品方便多了,亚马逊也落得个赚得钵满盆满。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...