爱吧机器人网 » 技术 > 大数据 > 正文

大数据的应用难题:是否该建立数据公地

要想考察大数据最好同时考察大数据背后的技术、商业和社会维度。从发展成熟度来看,技术维度走的最远、商业维度有所发展但不算全面成熟,社会维度发展最差。所以虽然已经谈了很久大数据,但除了孕育出大数据自身的几个领域比如搜索等,其它领域却并没有从大数据中获得可见的收益。大多时候人们还是处在觉得这里肯定有金子,但需要更多的耐心的状态。这篇文章则尝试对大数据本身的特征做点挖掘,对未来的发展趋势做点预测。

大数据上的深度和广度

如果把大数据对应到海量的数据,那它就是非常含糊的概念,相当于变成信息的同义词,显然也就很难回答信息到底能干什么这样的问题。

这时候为了推进思考通常需要先分类。如果把时间空间作为最基本的视角,那首先要区分的就是大数据的深度和广度。从时间的角度看大数据是完整的历史,从空间的角度看大数据是全球活动的痕迹。前者可以看成一种深度,后者可以看成一种广度,不同的场景对深度和广度的侧重有所不同。

大数据

对于有些垂直的行业,比如医疗,大数据的深度更重要,所有的历史都可以在数据上得到找到之后,人们就可以更好的认知并优化相应的行业。

对社会而言,很多时候广度则更重要,具体到某个场景我们只有一鳞半爪的消息,但当这种信息足够多,范围足够广,就有可能描述出相对及时的全貌。经常举的Google预测传染病的例子依赖的就是这种广度。

这点决定了大数据的应用发展趋势,在深度重要的地方,公司这类组织需要成为主体,困难是如何跨越数据所有权的边界。对于医院而言,显然把所有治疗案例数据化并共享是有好处的,但如果只有一个医院这么做,那对这一家医院而言更多的可能是隐私上反弹所带来的坏处。

在广度重要的地方,虽然在搜索这样的领域里公司也可以受益,但真正可以从大数据全面受益的机构其实是政府。数据越广,其所描述的主体就越大,而如果描述的是整个社会,那显然应该是社会的主要责任人会从中受益。这是个常识问题,就和看病的时候不会吃了医生给别人开的药自己反倒好了差不多。有的时候央视会播放百度做的春节期间人员流动图,这件事情也正好可以从侧面说明这问题。这种人员流动地图对能做出地图的人公司帮助远没有对政府的帮助大。

简单总结下就是:深度和广度两个方向对数据的要求不同,前者需要更为详劲有质量的数据源;后者则对此要求不高,但两者在应用的时候都会面临付出回报不对等问题。大数据倾向于描述整体,而有能力收集或处理大数据的往往是个体,个体的回报在整体的提升中并不容易获得清晰体现。

所以说现在大数据发展的瓶颈不是技术,而是背后所需要的分配关系的建立。这种关系理不顺,数据就会停留在孤岛层面,每个组织都有自己的东西,并把它命名为 大数据 。而为了理顺这种关系则要回到一个非常经典的问题, 公地 到底可不可以建立。

数据公地的设想

大数据其实有点像公地,在经济学里非常出名的一个论点是公地悲剧。《美国经济史》举了一个非常易懂的例子来说什么是公地悲剧:

...这些经济推理命题有利于解释集体所有制和产出的共享(平分或固定份额)如何导致 免费搭车者 问题。为了说明这一点,考虑共享土地所有权,且共同生产了100蒲式耳玉米的10个工人,平均每人消费10蒲式耳玉米。假设一个工人开始偷懒并将其劳动努力减半,从而导致产出减少5蒲式耳。由于产出共享制度的安排,偷懒者的消费量和其它工人一样,现在都是9.5蒲式耳。尽管他的努力已经下降了50%,但他的消费量只下降了5%。偷懒者是在搭他人劳动的便车...

这背后有非常深刻的人性问题,即使我们可以通过努力协作创造更多的财富,个人也可以从中分享更多,但在群体里明显的个人倾向则是自己工作更少但分享更多。这与囚徒困境其实是相通的。

基于实物的世界里眼下看不到彻底解决这问题的方法,只能依赖于某种被大家基本认可的分配秩序,比如:以前的血统现在的物竞天择,但基于比特的数字财富眼下看却有解决这问题的可能。

基于比特的数据与实物最大的区别是数据并非是你拿走我就没有的东西,并且硬件的价格在飞速下降,开源又使数据的访问工具基本免费。这几者叠加在一起,使数据公地成为可能。

这里面很有意思的问题是如果大家更在意我拿到的东西是不是绝对值变大了那数据公地的形成可能性就大些,因为如果存在数据公地,那每个人(企业)一定收获更多,但如果大家更在意我是不是比你多,那数据公地的建设就会多很多障碍,因为公地其实是让相关人员站到同样的竞争起点上。

大数据的问题,在数据的使用上是技术问题,但在数据源上其实是社会经济问题,后者更难,所以大数据应用的发展不取决于技术的发展而取决于社会经济方式的变革速度。在有限的领域里,比如搜索、电商、云计算,技术已经得到比较充分的发展,眼下来看谁付出谁受益的问题是把小数据变成大数据过程中最主要的问题。

大数据的路往那里走?

数据的内在发展动力是数据越全价值越大,其实这也是一种网络效应,这种内在动力导致宏观来看数据所有权的发展只有两种趋势:

一种是像现在移动端一样,每个人都有自己的私有数据源,接下来开始你死我活的竞争,最终有一家活下来,这也可以达成数据统一的终极目标。

另一种则是在竞争中开始联合,建设上面所说的数据公地。

如前所述行业数据和全社会的数据性质上差别很大所以要分开来探讨。

对于行业数据而言,竞争对手间彼此的坦诚合作除非有极为特别的人物出现,否则是不太可能的。这种情况下最简单的办法是引入第三方。

上一页12下一页

上一篇:纳人:用大数据来招聘到最合适的人才
下一篇:大数据造成的这些影响你未必了解
精选推荐
MIT最新“人机”互连系统 让双腿机器人复制人体技能
MIT最新“人机”互连系统 让双腿机器人复制人体技能

[2019-11-01]  MIT的小爱马仕想借用你的大脑 ,图片来自: João Ramos爱吧机器人网消息,麻省理工学院(MIT)的研究人员展示了一种新型遥操作系 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

这些人型机器人是如此真实,你的肉眼几乎无法区分
这些人型机器人是如此真实,你的肉眼几乎无法区分

[2017-09-03]   我们生活在一个区分现实与幻想变得越来越困难的世界。由于机器人技术的进步,创造人工的人类正在逐渐接近完美的最终目标。我们现在看到的机器人不再只是一块发光二极管,......

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...