爱吧机器人网 » 技术 > 大数据 > 正文

Coursera 数据工程师分享大数据的迷离身世

我们接着看看这张曲线图是信息时代的增长,其实工业革命前(1820 年),世界人均 GDP 在 1800 年前的两三千年里基本没变化,而从 1820 年到 2001 年 180 年里,世界人均 GDP 从原来 667 美元增长到 6049 美元。

\

由此足见,工业革命带来的收入增长的确翻天覆地。这里面发生了什么?大家可以思考一下。但人类的进步,并没停止或者说稳步增长,在发明了电力、电脑、互联网、移动互联网,全球年 GDP 增长 从万分之 5 到 2%,信息也是在急剧增长。根据计算,最近两年信息量是之前 30 年总和,最近 10 年是远超人类所有之前累计信息量之和。

在计算机时代,有个著名摩尔定律,就是说同样成本每隔 18 个月晶体管数量会翻倍,反过来,同样数量晶体管成本会减半。这个规律已经很好匹配了最近 30 年的发展,并且可以衍生到很多类似领域:存储、功耗、带宽、像素。

而最下面这个头像是冯诺伊曼,20 世纪最重要数学家之一,在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点,在那后,全部人类行为都不可能以我们熟悉的面貌继续存在。

这就是著名的“奇点理论”,目前会呈越来越快的指数性增长,美国未来学家 Ray Kurzweil 称:人类能在 2045 年实现数字化永生,他自己也创办奇点大学,相信随信息技术、无线网、生物、物理等领域的指数级增长,将在 2029 年实现人工智能,人的寿命也将会在未来 15 年得到大幅延长。

我们再回到现在,地球上至今的数据量从 GB、TB、PB、EB 到达 ZB,我们之前提出的 2^64 就相当于 16EB 的大校

\

大数据有什么用?

所谓“学以致用”,大数据领域在各行业都可以应用,这里举几个有趣的例子。在 Linkedin 时,CEO 提出“经济图谱”的概念,希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。

比如说找对象,有个国外极客,他抓取约会网站的数据,根据一些指标如地理、年龄、兴趣,建立下面的 3D 模型找到真爱;又如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。

在移动 App 上,今日头条通过你的个人社会化信息,建起兴趣图谱推荐文章并随你的使用会越来越聪明;在线教育领域:MOOC 中的 M 就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到 1.3 亿美金融资。硅谷有家 Wealthfront 做大数据理财,23andMe 提供个人基因组的“大数据”等等。

\

大数据公司列表

下面是 2014 年别人总结的大数据公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如 Hadoop、Mahout、HBase 和 Cassandra,我在下面也会涵盖。

\

我可以举几个例子,在分析这块,Cloudera、hortonworks、mapr 作为 Hadoop 三剑客,一些运维领域,mangodb、couchbase 都是 nosql 代表,作为服务领域 AWS 和 Google BigQuery 剑拔弩张,在传统数据库,甲骨文收购了 MySQL、DB2 老牌银行专用,Teradata 做了多年数据仓库。

上面的 Apps 更多,比如社交消费领域的谷歌、亚马逊、Netflix、Twitter、商业智能:SAP、GoodData,一些在广告媒体领域:TURN、Rocketfuel,做智能运维 sumologic 等等。最后还有个去年的新星 Databricks 伴随着 Spark 的浪潮震撼 Hadoop 的生态系统。

大数据之中国公司

对迅速成长的中国市场,大公司也意味大数据,BAT 三家都是对大数据投入不惜余力,我 4 年前在百度时,百度就提出框计算的东东,最近两年成立硅谷研究院,挖来 Andrew Ng 做首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。

腾讯作为最大社交应用对大数据也情有独钟,自己研发 C++ 平台的海量存储系统。淘宝去年双十一主战场,2 分钟突破 10 亿,交易额突破 571 亿,背后是有很多故事,当年在百度做 Pyramid(按谷歌三辆马车打造的金字塔三层分布式系统)有志之士,继续在 OceanBase 创造神话。

而阿里云当年备受争议,马云也在怀疑是不是被王坚忽悠,最后经历了双十一洗礼证明 OceanBase 和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面,这么多数据几何级数增长;另一方面存储带宽都是巨大成本,没价值就真破产。

\

大数据相关技术

大数据相关技术,最紧密的就是云计算,我列出主要是 Amazon Web Service 和 Google Cloud Platform,在国内还有阿里云、金山云、百度云、腾讯云、小米云、360 云、七牛……每个里面都是大量技术文档和标准,从计算到存储,从数据库到消息,从监控到部署管理,从虚拟网络到 CDN,把所有一切用软件重新定义了一遍。

先来讲亚马逊的云。我本人在亚马逊云计算部门工作过,所有还是比较了解 AWS,总体上成熟度很高,有大量创业公司都是基于上面开发,比如有名的 Netflix、Pinterest、Coursera.

上一页1234下一页

上一篇:大数据带来的四种思维
下一篇:芝麻开门 大数据征信体系揭秘
精选推荐
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...