爱吧机器人网 » 技术 > 大数据 > 正文

外媒全面深度分析大数据的革命

美国《外交政策》杂志称,大数据真的完全像人们吹嘘的那样吗?我们能相信众多的1和0将能揭示人类行为的隐秘世界吗?以下是作者对所谓大数据理论的思索。

“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价 值的见解和预言复杂问题答案的技巧与科学。它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是 解决不了的。

维克托•梅耶—舍恩伯格和肯尼思•丘基尔在有着朴素书名的《大数据:一次将改变我们生活、工作和思考方式的革命》一书中欢呼道:“对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”

只要有足够多的数据可以处理———不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这 些原始数据进行解码的计算能力,人们可以获得数不胜数的有价值的见解。甚至连奥巴马政府也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破 天荒”发布了大量“以前难以获取或难以管理的数据”。

大数据

然而,大数据真的完全像人们吹嘘的那样吗?我们能相信众多的1和0将能揭示人类行为的隐秘世界吗?以下是作者对所谓大数据理论的思索。

1.“有了足够的数据,数字就可以自己说话”

没门儿。大数据的鼓吹者希望我们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的有价值的见解,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。

数字无法自己说话,而数据集———不管它们具有什么样的规模———仍然是人类设计的产物。大数据的工具———例如Apache Hadoop软件框架———并不能使我们摆脱曲解、隔阂和错误的成见。

当大数据试图反映我们所生活的社会化世界时,这些因素变得尤其重要,而我们却常常会傻乎乎地认为这些结果总是要比人为的意见来得客观些。偏见和盲区 存在于大数据中,就像它们存在于个人的感觉和经验中一样。不过存在一种值得怀疑的信条,即认为数据总是越大越好,而相关性也等同于因果关系。

例如,社交媒体是大数据分析的一个普遍的信息源,那里无疑有许多信息可以挖掘。我们被告知,推特网的数据显示人们在离家越远的时候越快乐,而且在周 四晚上最为沮丧。但是存在许多理由对这些数据的含义提出质疑。首先,我们从皮尤研究中心获悉,美国上网的成年人中只有16%使用推特网,因而他们绝对不是 一个具有代表性的样本———与整体人口相比,他们中年轻人和城市人的比例偏多。

此外,我们知道许多推特账号是被称作“机器人”程序的自动程序、虚假账号或是“半机器人”系统(即得到机器人程序辅助的人为控制账号)。最近的估计 显示,可能存在多达2000万个虚假账号。因此就算我们要想踏入有关如何评估推特网用户情绪的方法论雷场之前,让我们先问一下这些情绪究竟是来自真人,还是来自自动化算法系统。

2.“大数据将使我们的城市变得更加智能和高效”

在一定程度上是的。大数据可以提供帮助改善我们城市的宝贵见识,但是它对我们的帮助仅此而已。因为数据在生成或采集的过程并不都是平等的,大数据集 存在“信号问题”———即某些民众和社区被忽略或未得到充分代表,这被称为数据黑暗地带或阴影区域。因此大数据在城市规划中的应用在很大程度上取决于市政 官员对数据及其局限性的了解。

例如,波士顿的StreetBump应用程序是一个比较聪明的以低成本收集信息的途径。该程序从开车经过路面坑洼处的驾驶员的智能手机上收集数据。 更多类似的应用正在出现。但是如果城市开始依靠仅来自智能手机用户的信息,那么这些市民只是一个自我选择样本———它必然导致拥有较少智能手机用户的社区 的数据缺失,这样的社区人群通常包括了年老和不那么富有的市民。

尽管波士顿的新城市机械办公室作出了多项努力来弥补这些潜在的数据缺陷,但不那么负责的公共官员可能会遗漏这些补救措施,最终会得到不均衡的数据, 从而进一步加剧已有的社会不公。人们只要回顾一下曾经过高估计了年度流感发病率的2012年“谷歌流感趋势”,就可以认识到依赖有缺陷的大数据可能给公共 服务及公共政策造成的影响。

在网上公开政府部门数据的“开放政府”计划———如Data.gov网站及“白宫开放政府计划”———也存在同样的情况。更多的数据未必会改善政府 的任何功能,包括透明度和问责,除非存在可以使公众和公共机构保持接触的机制,更不用说促进政府解释数据并以足够的资源作出反应的能力。所有这些都非易 事。事实上,我们身边还没有很多技能高超的数据科学家。各大学目前正在争相定义这一领域、制订教程和满足市场需求。

3.“大数据对不同的社会群体不会厚此薄彼”

几乎不是这样。对大数据所号称的客观性的另一个期待是对于少数群体的歧视将会减少,因为原始数据总是不含社会偏见的,这使得分析可以在整体水平上进 行,从而避免基于群体的歧视。然而,由于大数据能够作出有关群体不同行为方式的论断,它们的使用通常恰恰就是为了实现一个目的———即把不同的个体归入不 同的群体中。例如,最近有一篇论文指科学家听任自己的种族偏见影响有关基因组的大数据研究。

上一页12下一页

上一篇:论“万能”的大数据及由此带来的诸多问题
下一篇:那些年,曾经被我们误读的大数据
精选推荐
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智?
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?

[2017-08-23]  莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章,概述了新算法的数学基础,可以使人工智能收集错误报告并立即纠正,而不影响现有技能 ,同时还会积......

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图
谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图

[2019-10-26]  谷歌刚刚宣布,其搜索引擎的核心算法正在进行一项重大升级,这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术(BERT ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...