爱吧机器人网 » 技术 > 大数据 > 正文

Coursera 数据工程师分享大数据的迷离身世

我们接着看看这张曲线图是信息时代的增长,其实工业革命前(1820 年),世界人均 GDP 在 1800 年前的两三千年里基本没变化,而从 1820 年到 2001 年 180 年里,世界人均 GDP 从原来 667 美元增长到 6049 美元。

\

由此足见,工业革命带来的收入增长的确翻天覆地。这里面发生了什么?大家可以思考一下。但人类的进步,并没停止或者说稳步增长,在发明了电力、电脑、互联网、移动互联网,全球年 GDP 增长 从万分之 5 到 2%,信息也是在急剧增长。根据计算,最近两年信息量是之前 30 年总和,最近 10 年是远超人类所有之前累计信息量之和。

在计算机时代,有个著名摩尔定律,就是说同样成本每隔 18 个月晶体管数量会翻倍,反过来,同样数量晶体管成本会减半。这个规律已经很好匹配了最近 30 年的发展,并且可以衍生到很多类似领域:存储、功耗、带宽、像素。

而最下面这个头像是冯诺伊曼,20 世纪最重要数学家之一,在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点,在那后,全部人类行为都不可能以我们熟悉的面貌继续存在。

这就是著名的“奇点理论”,目前会呈越来越快的指数性增长,美国未来学家 Ray Kurzweil 称:人类能在 2045 年实现数字化永生,他自己也创办奇点大学,相信随信息技术、无线网、生物、物理等领域的指数级增长,将在 2029 年实现人工智能,人的寿命也将会在未来 15 年得到大幅延长。

我们再回到现在,地球上至今的数据量从 GB、TB、PB、EB 到达 ZB,我们之前提出的 2^64 就相当于 16EB 的大校

\

大数据有什么用?

所谓“学以致用”,大数据领域在各行业都可以应用,这里举几个有趣的例子。在 Linkedin 时,CEO 提出“经济图谱”的概念,希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。

比如说找对象,有个国外极客,他抓取约会网站的数据,根据一些指标如地理、年龄、兴趣,建立下面的 3D 模型找到真爱;又如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。

在移动 App 上,今日头条通过你的个人社会化信息,建起兴趣图谱推荐文章并随你的使用会越来越聪明;在线教育领域:MOOC 中的 M 就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到 1.3 亿美金融资。硅谷有家 Wealthfront 做大数据理财,23andMe 提供个人基因组的“大数据”等等。

\

大数据公司列表

下面是 2014 年别人总结的大数据公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如 Hadoop、Mahout、HBase 和 Cassandra,我在下面也会涵盖。

\

我可以举几个例子,在分析这块,Cloudera、hortonworks、mapr 作为 Hadoop 三剑客,一些运维领域,mangodb、couchbase 都是 nosql 代表,作为服务领域 AWS 和 Google BigQuery 剑拔弩张,在传统数据库,甲骨文收购了 MySQL、DB2 老牌银行专用,Teradata 做了多年数据仓库。

上面的 Apps 更多,比如社交消费领域的谷歌、亚马逊、Netflix、Twitter、商业智能:SAP、GoodData,一些在广告媒体领域:TURN、Rocketfuel,做智能运维 sumologic 等等。最后还有个去年的新星 Databricks 伴随着 Spark 的浪潮震撼 Hadoop 的生态系统。

大数据之中国公司

对迅速成长的中国市场,大公司也意味大数据,BAT 三家都是对大数据投入不惜余力,我 4 年前在百度时,百度就提出框计算的东东,最近两年成立硅谷研究院,挖来 Andrew Ng 做首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。

腾讯作为最大社交应用对大数据也情有独钟,自己研发 C++ 平台的海量存储系统。淘宝去年双十一主战场,2 分钟突破 10 亿,交易额突破 571 亿,背后是有很多故事,当年在百度做 Pyramid(按谷歌三辆马车打造的金字塔三层分布式系统)有志之士,继续在 OceanBase 创造神话。

而阿里云当年备受争议,马云也在怀疑是不是被王坚忽悠,最后经历了双十一洗礼证明 OceanBase 和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面,这么多数据几何级数增长;另一方面存储带宽都是巨大成本,没价值就真破产。

\

大数据相关技术

大数据相关技术,最紧密的就是云计算,我列出主要是 Amazon Web Service 和 Google Cloud Platform,在国内还有阿里云、金山云、百度云、腾讯云、小米云、360 云、七牛……每个里面都是大量技术文档和标准,从计算到存储,从数据库到消息,从监控到部署管理,从虚拟网络到 CDN,把所有一切用软件重新定义了一遍。

先来讲亚马逊的云。我本人在亚马逊云计算部门工作过,所有还是比较了解 AWS,总体上成熟度很高,有大量创业公司都是基于上面开发,比如有名的 Netflix、Pinterest、Coursera.

上一页1234下一页

上一篇:大数据带来的四种思维
下一篇:芝麻开门 大数据征信体系揭秘
精选推荐
智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

美国人工智能公司Skymind进入福建全面开展业务
美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11]  人工智能在当今这个时代对大家来说想必是非常熟悉的,这也是我国近十几年来一直追求的目标,未来的时间里这也将是全人类追求的目标。就目前来看,近年来,人工智能或在我国迎......

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

研究人员融合人类与AI的创造力 显著提高了深度学习的表现
研究人员融合人类与AI的创造力 显著提高了深度学习的表现

[2019-10-12]  由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族,可以在智能 ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...