爱吧机器人网 » 技术 > 大数据 > 正文

Coursera 数据工程师分享大数据的迷离身世

“大数据”一词这几年来火爆异常,出镜率爆表,那么究竟什么才是大数据呢?你是否对他的了解只是“闻其名”,却未“知其人”呢?现在,这篇由硅谷在线教育公司 Coursera 数据工程师(也曾在百度、LinkedIn 等公司工作)的干货文章将为你详细介绍“大数据”的迷离身世。

硅谷在线教育公司 Coursera 数据工程师董飞准备在硅发布平台开讲了,课程第一系列《大数据入门》。董飞也曾在百度、LinkedIn 等公司工作。

\

在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年 1 月 17 日,排名和规模已经发生很大变化。

\

首先,估值在十亿美金的公司达到 7 家,而一年前都没有;第二,第一名是中国的小米;第三,前 20 名中,绝大多数(八成在美国,在加州,在硅谷,在旧金山!)比如 Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如 Flipkart 就是印度市场的淘宝,Uber 与 Airbnb 都是共享经济的范畴。

所以,大家还是可以在移动(Uber)、大数据(Palantir)、消费级互联网、通讯(Snapchat)、支付(Square)及 O2O App 里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。

第二,在 Linkedin,每年会评选一个最有需求的创业公司名单,基本是结合 Linkedin 用户访问量和申请数做出的挖掘。下面,我列出最近 3 年数据,大家可以做个判别和趋势分析。

\

里面还是很靠谱的,比如不少上榜名单已成功 IPO(GoPro、Hortonworks、Splunk),里面有很多大数据领域公司(Splunk,、Box,、Nimble Storage、Violin Memroy, Dropbox),而除了之前看到的一些互联网项目,在一些医疗健康(Theranos)、智能硬件(Leap motion、Fitbit、Jawbone)、在线教育(Coursera)也吸引很大注意力。

第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻 2、3 倍,例如在 Uber、Snapchat 上,我也惊讶他们的巨额融资规模和颠覆速度。

下面这张图,就是讲新事物的发展规律,这是硅谷孵化器 YCombinator 公开课 How to start a startup 提到的。一个新 Idea 加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离 Peak 也许才过去几个月。

\

但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从 Quora 网站流量、Tesla 股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代(比如金融危机),才能体会事物发展本质和踏实的意义。

第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《Imitation Game》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的 42 岁生命。

他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试(Turing Test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。

谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。

他认为未来机器会控制 98% 的人,而现在我们就要做个选择,怎么成为剩下的 2% ?李开复在 2015 年新年展望也提出未来五年物联网带来庞大创业机会。

大数据入门

接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。

这个大臣给国王看下面这个棋盘,是个 8*8 的方格,如果我在每个标号的格子内放米粒,第一个格子放 1 粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?

\

我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 …… + 2^63 = 2^64 - 1 .这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。

其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是 2^32,这并不是个很大的数,其实前几年计算机的 32 位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机 64 位处理器,并无实际意义。

上一页1234下一页

上一篇:大数据带来的四种思维
下一篇:芝麻开门 大数据征信体系揭秘
精选推荐
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

研究人员融合人类与AI的创造力 显著提高了深度学习的表现
研究人员融合人类与AI的创造力 显著提高了深度学习的表现

[2019-10-12]  由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族,可以在智能 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

CES 2018:英特尔推出49量子位芯片争夺量子霸权
CES 2018:英特尔推出49量子位芯片争夺量子霸权

[2018-01-10]  在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中,英特尔通过了一个关键的里程碑。近日,这个科技巨头已经推出了一个49个量子位 ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...