爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

当然,Antony Rowstron的这篇论文 意不在此 ,文中的主要诉求是,既然我们日常处理的数据没有那么大到 不成体统 ,就没有必要把某台机器的性能指标一味地纵向扩展(scale up),比如把内存从8G升级为16GB,32GB,64GB,甚至更高,而是应该选择更加 经济实惠 的横向扩展(Scale out)策略,比如将若干个8GB低配置的机器连接在一起,组成一个廉价的集群(cluster),然后利用Hadoop将集群用起来,所以这篇论文的标题是 没有人会因在集群上使用Hadoop而被解雇(Nobody ever got fired for using Hadoop on a cluster) ,言外之意,在目前大数据语境下,使用 类Hadoop(Hadoop-like) 工具分析大数据是未来主流的趋势之一,就业市场一片光明。

从上面的分析可以看出,我们不否认,大数据是前沿,但我们更不能对目前的现状熟视无睹 小数据依然是主流。目前大多数公司、企业其实仍处于 小数据 处理阶段。但只要在纵向上有一定的时间积累,在横向上有较丰富的记录细节,通过多个源头对同一个对象采集的各种数据有机整合,实施合理的数据分析,就可能产生大价值。基于此,李国杰院士指出,在大数据时代,我们是不能抛弃 小数据 的[9]。

对精确的追求,历来是传统的小数据分析的强项,这在一定程度上弥补大数据的 混杂性 缺陷。犹如有句歌词唱得那样: 结识新朋友,不忘老朋友 。在大数据时代,我们也不能忘记小数据。大数据有大数据的力量,小数据有小数据的美。下面我们就聊聊这个话题。

4.你若安好,便是晴天 小数据之美

小数据,其实是大数据的一个有趣侧面,是其众多维度的一维。有时,我们需要大数据的全维度可视,周涛教授甚至把 全息可见 作为大数据的特征,而这个特征在对用户数字 画像 时,非常有用,因为这样做,非常有利于商家推广 精准营销 。

在这里,我们再次强调托马斯 克伦普的哲学观 数据的本质是人。技术也是为人服务的。对于 普罗大众 而言,有时,我们并不希望自己被数字化,被全息透明化,这就涉及到个人隐私问题了。如果大数据技术侵犯个人的隐私,让受众不开心了,那这个技术就应该有所限制和规范,但这不在本文的讨论范围,就不展开说了。

流行的 大数据 定义是: 无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集 。我们很容易反其道而用之,定义出 小数据(small data) , 通过目前主流软件工具可以在合理时间内采集、存储、处理的数据集 。这就是传统意义上的小数据,经典的数理统计和数据挖掘知识,可以较好地解决这类问题。这个范畴的小数据,属于老生常谈,所以本文不谈。

我们下文讨论的小数据,是一类新兴的数据,它是围绕个人为中心全方位的数据,是我们每个个体的数字化信息,因此,也有人称之为 iData 。这类小数据跟大数据的根本区别在于,小数据主要以单个人为研究对象,重点在于深度,对个人数据深入的精确的挖掘,对比而言,大数据则侧重在某个领域方面,在大范围、大规模全面数据收集处理分析, 侧重在于广度。

小数据是大数据的某个侧面,事实上,很多时候,对于个人而言,这个所谓的侧面就有可能是特定个人的全面。当大数据受万人瞩目时,创新技术(如智能手机、智能手环及智能体育等)也让小数据 个人的自我量化(Quantified Self,QS), 面朝大海,春暖花开 。

个人量化,可以测量、跟踪、分析我们日常生活中点点滴滴。比如,今天的早餐我摄入了多少卡路里?围着操场跑一圈我消耗了多少热量,在手机的某个App(如微信)上我耗费了多少时间?等等诸如此类。在某种程度上,是小数据,而非大数据,才是我们生活的帮手。 小数据 不比大数据那样浩瀚繁杂,却对我自己至关重要。下面我们用两个小案例来说明小数据的应用

先说一个稍微高大上的案例。据科技记者Emily Waltz在IEEE Spectrum的撰文指出[20],目前佩戴在运动员身上生物小配件(Biometric gadget,通常指传感器),正在改变世界精英级运动员的训练方式。这些可穿戴传感器设备,提供实时的生理参数,而在以前,倘若要获取这样的数据,需要笨重和昂贵的实验室设备。如同40年前,风靡一时的负重训练方案,可让运动员更有韧性,可穿戴装备能帮助运动员提高成绩并同时避免受伤。一些棒球手、自行车运动员和橄榄球等竞技运动员用新装备寻求优势。

\图11 运动员利用可穿戴设备训练美式橄榄球(图片来源:IEEE)

例如,在如图11所示的装备中,运动员身上的传感器能够精确记录在室内外场馆的运动特征。这些自我量化设备,可放置于运动员背部的压缩衣中,它能够监控运动员的加速、减速、方向改变以及跳跃高度和运动距离等指标。教练员能够通过监控数据,来检测每个运动员训练强度,并防止过度训练所带来的伤害。这些自我量化设备的工作原理是,协同使用很多小设备,如加速计、磁力计、陀螺仪、GPS接收仪等 这些设备每秒能够产生100个数据点。通过无线连接,计算机可以实时采集这些数据。个人量化分析软件,可对运动特征和特定位置实施分析,计算机专家系统中的算法,可以检测到运动员在做对了什么、做错了什么,基于此,教练可以给出更加有针对性的训练。目前此类设备的使用者,包括一半以上的NFL(橄榄球联盟)、三分之一的NBA运动员、一半以上的英超球队以及世界各地的足球队、橄榄球队和划船运动队等。

自我量化设备(可穿戴设备)通常是和物联网(Internet of things,IoT)是有关联的。而现在还处于炒作巅峰的物联网(如图8所示),通常是和大数据扯到一起的,但是就某个具体的物联网设备而言,它一定先是产生少量的甚至是微量的数据,也就是说,物联网首先是小数据,然后才能汇集成大数据。沃顿商学院教授、纽约时报最佳畅销书作者乔纳 伯杰(Jonah Berger)推测[21],个人的自我量化数据,或许将会是大数据革命中下一个演进方向。由此可见,大、小数据之间并无明显的界限。再大的数据也是人们一点一滴聚沙成塔、集腋成裘的。没有小数据的积少成多、百川归海,大数据也是无源之水、无本之木。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
南加州大学机器人学家:机器人更适合粗暴的爱
南加州大学机器人学家:机器人更适合粗暴的爱

[2019-11-07]  图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱,当人类粗暴的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物 ...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图
谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图

[2019-10-26]  谷歌刚刚宣布,其搜索引擎的核心算法正在进行一项重大升级,这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术(BERT ...

CES 2018:英特尔推出49量子位芯片争夺量子霸权
CES 2018:英特尔推出49量子位芯片争夺量子霸权

[2018-01-10]  在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中,英特尔通过了一个关键的里程碑。近日,这个科技巨头已经推出了一个49个量子位 ...

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...