爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

当然,Antony Rowstron的这篇论文 意不在此 ,文中的主要诉求是,既然我们日常处理的数据没有那么大到 不成体统 ,就没有必要把某台机器的性能指标一味地纵向扩展(scale up),比如把内存从8G升级为16GB,32GB,64GB,甚至更高,而是应该选择更加 经济实惠 的横向扩展(Scale out)策略,比如将若干个8GB低配置的机器连接在一起,组成一个廉价的集群(cluster),然后利用Hadoop将集群用起来,所以这篇论文的标题是 没有人会因在集群上使用Hadoop而被解雇(Nobody ever got fired for using Hadoop on a cluster) ,言外之意,在目前大数据语境下,使用 类Hadoop(Hadoop-like) 工具分析大数据是未来主流的趋势之一,就业市场一片光明。

从上面的分析可以看出,我们不否认,大数据是前沿,但我们更不能对目前的现状熟视无睹 小数据依然是主流。目前大多数公司、企业其实仍处于 小数据 处理阶段。但只要在纵向上有一定的时间积累,在横向上有较丰富的记录细节,通过多个源头对同一个对象采集的各种数据有机整合,实施合理的数据分析,就可能产生大价值。基于此,李国杰院士指出,在大数据时代,我们是不能抛弃 小数据 的[9]。

对精确的追求,历来是传统的小数据分析的强项,这在一定程度上弥补大数据的 混杂性 缺陷。犹如有句歌词唱得那样: 结识新朋友,不忘老朋友 。在大数据时代,我们也不能忘记小数据。大数据有大数据的力量,小数据有小数据的美。下面我们就聊聊这个话题。

4.你若安好,便是晴天 小数据之美

小数据,其实是大数据的一个有趣侧面,是其众多维度的一维。有时,我们需要大数据的全维度可视,周涛教授甚至把 全息可见 作为大数据的特征,而这个特征在对用户数字 画像 时,非常有用,因为这样做,非常有利于商家推广 精准营销 。

在这里,我们再次强调托马斯 克伦普的哲学观 数据的本质是人。技术也是为人服务的。对于 普罗大众 而言,有时,我们并不希望自己被数字化,被全息透明化,这就涉及到个人隐私问题了。如果大数据技术侵犯个人的隐私,让受众不开心了,那这个技术就应该有所限制和规范,但这不在本文的讨论范围,就不展开说了。

流行的 大数据 定义是: 无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集 。我们很容易反其道而用之,定义出 小数据(small data) , 通过目前主流软件工具可以在合理时间内采集、存储、处理的数据集 。这就是传统意义上的小数据,经典的数理统计和数据挖掘知识,可以较好地解决这类问题。这个范畴的小数据,属于老生常谈,所以本文不谈。

我们下文讨论的小数据,是一类新兴的数据,它是围绕个人为中心全方位的数据,是我们每个个体的数字化信息,因此,也有人称之为 iData 。这类小数据跟大数据的根本区别在于,小数据主要以单个人为研究对象,重点在于深度,对个人数据深入的精确的挖掘,对比而言,大数据则侧重在某个领域方面,在大范围、大规模全面数据收集处理分析, 侧重在于广度。

小数据是大数据的某个侧面,事实上,很多时候,对于个人而言,这个所谓的侧面就有可能是特定个人的全面。当大数据受万人瞩目时,创新技术(如智能手机、智能手环及智能体育等)也让小数据 个人的自我量化(Quantified Self,QS), 面朝大海,春暖花开 。

个人量化,可以测量、跟踪、分析我们日常生活中点点滴滴。比如,今天的早餐我摄入了多少卡路里?围着操场跑一圈我消耗了多少热量,在手机的某个App(如微信)上我耗费了多少时间?等等诸如此类。在某种程度上,是小数据,而非大数据,才是我们生活的帮手。 小数据 不比大数据那样浩瀚繁杂,却对我自己至关重要。下面我们用两个小案例来说明小数据的应用

先说一个稍微高大上的案例。据科技记者Emily Waltz在IEEE Spectrum的撰文指出[20],目前佩戴在运动员身上生物小配件(Biometric gadget,通常指传感器),正在改变世界精英级运动员的训练方式。这些可穿戴传感器设备,提供实时的生理参数,而在以前,倘若要获取这样的数据,需要笨重和昂贵的实验室设备。如同40年前,风靡一时的负重训练方案,可让运动员更有韧性,可穿戴装备能帮助运动员提高成绩并同时避免受伤。一些棒球手、自行车运动员和橄榄球等竞技运动员用新装备寻求优势。

\图11 运动员利用可穿戴设备训练美式橄榄球(图片来源:IEEE)

例如,在如图11所示的装备中,运动员身上的传感器能够精确记录在室内外场馆的运动特征。这些自我量化设备,可放置于运动员背部的压缩衣中,它能够监控运动员的加速、减速、方向改变以及跳跃高度和运动距离等指标。教练员能够通过监控数据,来检测每个运动员训练强度,并防止过度训练所带来的伤害。这些自我量化设备的工作原理是,协同使用很多小设备,如加速计、磁力计、陀螺仪、GPS接收仪等 这些设备每秒能够产生100个数据点。通过无线连接,计算机可以实时采集这些数据。个人量化分析软件,可对运动特征和特定位置实施分析,计算机专家系统中的算法,可以检测到运动员在做对了什么、做错了什么,基于此,教练可以给出更加有针对性的训练。目前此类设备的使用者,包括一半以上的NFL(橄榄球联盟)、三分之一的NBA运动员、一半以上的英超球队以及世界各地的足球队、橄榄球队和划船运动队等。

自我量化设备(可穿戴设备)通常是和物联网(Internet of things,IoT)是有关联的。而现在还处于炒作巅峰的物联网(如图8所示),通常是和大数据扯到一起的,但是就某个具体的物联网设备而言,它一定先是产生少量的甚至是微量的数据,也就是说,物联网首先是小数据,然后才能汇集成大数据。沃顿商学院教授、纽约时报最佳畅销书作者乔纳 伯杰(Jonah Berger)推测[21],个人的自我量化数据,或许将会是大数据革命中下一个演进方向。由此可见,大、小数据之间并无明显的界限。再大的数据也是人们一点一滴聚沙成塔、集腋成裘的。没有小数据的积少成多、百川归海,大数据也是无源之水、无本之木。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
麻省理工正研究植物机器人 让植物自主控制机器人
麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...