爱吧机器人网 » 技术 > 大数据 > 正文

大数据时代,科技走到了宗教尽头

这是一个人人都言“ 大数据 ”的时代,然“ 大数据 ”存在于何处?影响于何处?难免,普通大众被席卷而来的“ 大数据 ”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“ 大数据 ”的局限性。

渗透时刻,无处不在的 大数据

大数据 可能是时下最吸引眼球的话题之一。从通过鲜花与 安全 套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用 大数据 技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和 人工智能 系统之间感情逐渐加深直到爱上彼此, 大数据 给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战 大数据 》里面也强调了两个重要观点:其一, 大数据 彻底消除了“样本偏差”(sample bias)。“样本跟 大数据 不同。 大数据 相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二, 大数据 时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据 前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。 大数据 时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在, 大数据 没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在 大数据 时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在 大数据 时代,数据与应用场景也会有严重割裂。拿情人节鲜花和 安全 套比率这个例子来说,基于“你懂得”的原因,很多 安全 套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。 数据分析 人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因, 大数据 时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在 大数据 时代,人们还是应该有敬畏之心,在这个时代, 科技 确实游走到了宗教边缘。

二、 大数据 结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是 大数据 时代的重要尝试。其核心基于 大数据 ,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是 数据分析 利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在 大数据 时代,相关与因果的混淆可能导致的问题会远超以往。 大数据 时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是 大数据 时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着 大数据 技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

上一页12下一页

上一篇:今年世界人民在谷歌上搜什么?
下一篇:2015年度大数据发展十大预测
精选推荐
农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...