爱吧机器人网 » 技术 > 大数据 > 正文

大数据时代,科技走到了宗教尽头

这是一个人人都言“ 大数据 ”的时代,然“ 大数据 ”存在于何处?影响于何处?难免,普通大众被席卷而来的“ 大数据 ”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“ 大数据 ”的局限性。

渗透时刻,无处不在的 大数据

大数据 可能是时下最吸引眼球的话题之一。从通过鲜花与 安全 套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用 大数据 技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和 人工智能 系统之间感情逐渐加深直到爱上彼此, 大数据 给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战 大数据 》里面也强调了两个重要观点:其一, 大数据 彻底消除了“样本偏差”(sample bias)。“样本跟 大数据 不同。 大数据 相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二, 大数据 时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据 前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。 大数据 时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在, 大数据 没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在 大数据 时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在 大数据 时代,数据与应用场景也会有严重割裂。拿情人节鲜花和 安全 套比率这个例子来说,基于“你懂得”的原因,很多 安全 套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。 数据分析 人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因, 大数据 时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在 大数据 时代,人们还是应该有敬畏之心,在这个时代, 科技 确实游走到了宗教边缘。

二、 大数据 结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是 大数据 时代的重要尝试。其核心基于 大数据 ,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是 数据分析 利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在 大数据 时代,相关与因果的混淆可能导致的问题会远超以往。 大数据 时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是 大数据 时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着 大数据 技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

上一页12下一页

上一篇:今年世界人民在谷歌上搜什么?
下一篇:2015年度大数据发展十大预测
精选推荐
科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

谷歌在中国成立一个新的人工智能(AI)研究中心
谷歌在中国成立一个新的人工智能(AI)研究中心

[2017-12-13]  谷歌正在中国建立一个新的人工智能(AI)研究中心,希望进一步扩展到中国,以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一,亚马逊,微软......

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...