爱吧机器人网 » 技术 > 大数据 > 正文

Coursera 数据工程师分享大数据的迷离身世

“大数据”一词这几年来火爆异常,出镜率爆表,那么究竟什么才是大数据呢?你是否对他的了解只是“闻其名”,却未“知其人”呢?现在,这篇由硅谷在线教育公司 Coursera 数据工程师(也曾在百度、LinkedIn 等公司工作)的干货文章将为你详细介绍“大数据”的迷离身世。

硅谷在线教育公司 Coursera 数据工程师董飞准备在硅发布平台开讲了,课程第一系列《大数据入门》。董飞也曾在百度、LinkedIn 等公司工作。

\

在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年 1 月 17 日,排名和规模已经发生很大变化。

\

首先,估值在十亿美金的公司达到 7 家,而一年前都没有;第二,第一名是中国的小米;第三,前 20 名中,绝大多数(八成在美国,在加州,在硅谷,在旧金山!)比如 Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如 Flipkart 就是印度市场的淘宝,Uber 与 Airbnb 都是共享经济的范畴。

所以,大家还是可以在移动(Uber)、大数据(Palantir)、消费级互联网、通讯(Snapchat)、支付(Square)及 O2O App 里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。

第二,在 Linkedin,每年会评选一个最有需求的创业公司名单,基本是结合 Linkedin 用户访问量和申请数做出的挖掘。下面,我列出最近 3 年数据,大家可以做个判别和趋势分析。

\

里面还是很靠谱的,比如不少上榜名单已成功 IPO(GoPro、Hortonworks、Splunk),里面有很多大数据领域公司(Splunk,、Box,、Nimble Storage、Violin Memroy, Dropbox),而除了之前看到的一些互联网项目,在一些医疗健康(Theranos)、智能硬件(Leap motion、Fitbit、Jawbone)、在线教育(Coursera)也吸引很大注意力。

第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻 2、3 倍,例如在 Uber、Snapchat 上,我也惊讶他们的巨额融资规模和颠覆速度。

下面这张图,就是讲新事物的发展规律,这是硅谷孵化器 YCombinator 公开课 How to start a startup 提到的。一个新 Idea 加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离 Peak 也许才过去几个月。

\

但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从 Quora 网站流量、Tesla 股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代(比如金融危机),才能体会事物发展本质和踏实的意义。

第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《Imitation Game》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的 42 岁生命。

他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试(Turing Test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。

谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。

他认为未来机器会控制 98% 的人,而现在我们就要做个选择,怎么成为剩下的 2% ?李开复在 2015 年新年展望也提出未来五年物联网带来庞大创业机会。

大数据入门

接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。

这个大臣给国王看下面这个棋盘,是个 8*8 的方格,如果我在每个标号的格子内放米粒,第一个格子放 1 粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?

\

我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 …… + 2^63 = 2^64 - 1 .这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。

其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是 2^32,这并不是个很大的数,其实前几年计算机的 32 位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机 64 位处理器,并无实际意义。

上一页1234下一页

上一篇:大数据带来的四种思维
下一篇:芝麻开门 大数据征信体系揭秘
精选推荐
2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

研究人员融合人类与AI的创造力 显著提高了深度学习的表现
研究人员融合人类与AI的创造力 显著提高了深度学习的表现

[2019-10-12]  由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族,可以在智能 ...

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...