爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

然而,对于小批量的大决策,对因果关系的追求,依然是非常重要的。吴甘沙先生用 中西药 药方做类比,给出了一个很精彩的例子,用来说明相关性和因果性的关系[15]。对于中药处方而言,多是 神农尝百草 式的经验处方,目前仅仅到达知道 相关性 这一步,但它没有可解释性,无法得出是那些树皮和虫壳的因,为什么就是导致某些病能治愈的果,换句话说,中药仅仅到了 知其然 阶段(追求 是什么 ),如果我们的国粹止步于 知其所以然 (追求 为什么 ),那么中医想要走出中国,面向世界,是非常困难的(注:笔者曾是中医的受益者,请不要误判是在黑中医)。

而西药则不同,在发现相关性后,并没有止步,而是进一步要做随机对照试验,把所有可能导致 治愈的果 的干扰因素排除,获得因果性和可解释性。在商业决策上也是类似,相关性只是决策的开始,它取代了拍脑袋、依靠直觉获得的假设,而后面验证因果性的过程仍然是重要。

在大数据时代, 相关性 被很多大数据粉丝奉为圭臬。前文也提到, 相关性 也的确有用,但有时,人们会不自觉地把 相关性 不自觉地当作 因果性 。

加拿大莱桥大学管理学院鲍勇剑教授指出[16],在大数据时代,只要有超大样本和超多变量,我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响,你可以罗列10亿个假设。只要你反复尝试不同的模型,上千次后,你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事(段子)来说明这个观点。

在小数据时代的1992年,香港人拍了一个电视连续剧《大时代》,其中著名演员郑少秋饰演丁蟹,丁蟹是一个资深的股民,股海翻腾,身心疲惫,终无所得。在1992年的随后20多年里,只要电视台一播放郑少秋主演的连续剧,香港恒生指数都会有不同程度的下跌,人称 丁蟹效应(或称秋官效应) ,这是有样本支持的,如图6所示。每次郑少秋主演的电视剧播放预告时,总有香港股民打电话到电视台,希望不要播放,因为担心亏钱。

\图6 丁蟹效应与香港股市(图片来源:文汇报)

更无厘头的是,这相关性还扯到中国运动员刘翔身上了,下面是个 余温尚存 段子,它是这样描述的:

2008年8月18日 北京奥运会,刘翔因伤退赛,当天股市大跌5.3%,并且一个月内大跌20%。

2014年9月他宣布结婚一个月后,股市就开始狂涨,从2300点涨到5178点。

2015年6月26日,刘翔离婚,股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊!

因此,网友们强烈要求刘翔尽快宣布再次结婚。

香港的股民为什么不希望郑少秋主演的电视剧播放,是因为怕电视剧一播放,股市就下跌。大陆的股民为什么希望刘翔再次结婚,因为刘翔有喜了,所以股市就有喜了。注意到前面描述中体现出来的 因果关系 吗?

事实上,《大时代》和刘翔和股市之间有何因果关系?不过是样本大了,变量多了,统计上的 相关性 就会冒出来而已。而人们却 潜移默化 地把观察到的 相关 ,当作事物背后的 因果 。

或许,就有人不太认可上述观点,认为上面两个小故事,都是属于段子级别的案例,何以能说明问题?那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字:

黄梅时节家家雨,青草池塘处处蛙。

潮起潮落劲风舞,夏夜夏雨听蛙鸣。

荷沐夏雨娇滴滴,稻里蛙鸣一片欢。

夏雨凉风,蝉噪蛙鸣,热浪来袭,远处云树晚苍苍。

皇阿玛,你还记得当年蛙鸣湖边的夏雨荷吗?

我们知道,文学虽然高于生活,但亦源于生活。从上面的从古至今的 文人墨客 的诗情画意中,读者依稀可看出一点点相关性 人类祖先经过长期观察发现,蛙鸣与下雨往往是同时发生。这样的长期观察样本,也可称得上是 大数据 。于是,在久旱无雨的季节,不求甚解的古人,就会把这个 相关性 当作 因果性 了,他们试图通过学蛙鸣来求雨。在多次失灵之后,就会走向巫术、献祭和宗教[8](如图7所示)。因此,同小数据一样,在大数据中,可解释性(因果关系)始终是重要的。

\图7 印度人民以蛙求雨的习俗,源远流长,至今留存(图片来源:互联网)

博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称: 如果有四个变量,我能画头大象,如果再给一个,我让大象的鼻子竖起来! 大数据的来源多样性,变量复杂性,为诞生 新颖 的相关性,创造无限可能。而本质上,人们对因果关系的追求,事实上,已经根深蒂固,这种思维惯性难以轻易改变,而在大数据时代,会面临着冒出更多的相关性, 乱花渐欲迷人眼 。大数据的拥趸者们说, 要相关,不要因果 ,但事实上,在很多时候,特别是人们在对未来无法把控的时候,很容易把 相关 当作 因果 !这是大数据时代里一个很大的陷阱,特别值得注意。

2.2.3 大数据的其它陷阱

下面,我们用另外一个小 故事 来说明大数据的第二个陷阱:

假如你是一位出车千次无事故的好司机,年关将近,酒趣盎然,在朋友家喝了点小酒,这时估计警察也该下班过年了,于是你坚持自己开车回家,盘算着这酒后驾车出事故的概率也不过千分之一吧。如果这样算,你就犯了一个取样错误,因为前一千次出车,你没喝酒,它们不能和这次 酒后驾车 混在一起计算(故事来源:参考文献[16])。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

Waymo:人性和行为心理学才是无人驾驶最大的挑战
Waymo:人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03]  自动驾驶汽车作为AI领域内最大的挑战之一,谷歌致力于其研发已有十余载,现在他们逐渐意识到,最困难的是如何让人们享受驾驶的乐趣。这是一 ...

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...