美国大数据工程师面试攻略有哪些？-大数据-技术-爱吧机器人网

美国大数据工程师面试攻略有哪些？

2015-12-08 爱吧机器人网浏览量：

大数据相关技术

我个人热爱大数据，在硅谷这也是大家津津乐道的，有个笑话，big data is like teenage sex: everyone talks about it, nobody really knows how to do it. 其实大家还是兴趣驱动就好，不要那么功利，大数据技术涉及太多，平常工作中也是慢慢积累，有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个，如果你用不好，你的压力很大的，举个例子，你用某个开源数据库，发现它偶尔有数据丢失怎么办，如果这是线上服务，你不断收到报警，这时候你当时选用它的优点 scalable，容错性都没意义了。

接着说大数据，这里面Hadoop作为行业标准，我面过的除了Google，微软不用，几乎所有的公司都在用，建议大家利用这个机会。这里面有三巨头，Cloudera是老牌Hadoop咨询公司，Hadoop的创始人做CTO，Hortonworks也是很多Hadoop的committee，MapR是提出hdfs的erasure 编码方式高效而著名，它们都是融了巨资，模式也很像，先推出社区免费版，但有个商业版提供更好的管理。而今年出现一匹黑马Spark，简单说就是内存级别的计算，比Hadoop框架里能节约IO，利用缓存，能适应批处理，迭代，流式计算。

这里看一下它的生态系统，如何学Hadoop是个循序渐进过程，先要理解学习它的Core系统，HDFS, MapReduce, Common，在外围有无数的系统工具方便开发，我个人用过的是Avro作为数据格式，Zookeeper作为选主的高可靠性的组件，Solr作为搜索接口，Pig搭建工作流，Hive 数据仓库查询，Oozie管理工作流，HBase 作为KV分布式存储，Mahout 数据挖掘的库，Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。

而Hadoop本身也是个进化过程，几年前0.19版本，到0.20、0.23分流成Yarn架构，最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的，但总体上Hadoop 2.0 是趋势，因为它有Yarn这样分离的资源管理平台，可以以插件的方式开发上面的Application，解放了生产力，而像Spark，Storm这些新型处理器也是支持Hadoop 2.0的。

这里是Hortonworks它们提出来的社区版本架构，可以说标准的制定者，一流的公司制定标准，其他的公司一般用只能用它们提供的稳定版，没有多少话语权。但从事大数据，并不见得是要去这些制定标准的公司，大量的应用也是非常考验架构的灵活性，并且能看到实际的产品，很有成就感。

说到2014年火的，还是要看Spark。已经开了2届Spark大会，上千人的规模，无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab，它们有个很有名的BDAS（Berkeley Data Analytics Stack），目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司，拉到两轮上千万的风投，有人问Spark是Hadoop的终结者吗？我看2014年Spark大会上，所有的Hadoop大佬公司都是鼎力支持，像Cloudrea甚至放弃Impala的一线支持而转变成Spark。

如果这么发展下去，星星之火可以燎原埃它里面用到Scala是一种函数式语言。里面的组件也很多，有Shark支持SQL类似Hive，有Spark Streaming、MLlib、Graphx、SparkR、BlinkDB。它的核心数据结构是RDD，可以跑在各种分布式系统上。总体上是个包容性＋侵略性的系统。我个人也很看好它们的发展。

我在Linkedin做过一些大数据的广告系统，我就简单提一些我学到的。

Linkedin有特有的开源数据系统，包括Voldermort （分布式KV存储）, Kafka （分布式实时消息队列），Espresso （基于mysql的海量存储），Databus（数据变化捕捉），可以查看https://data.linkedin.com
Lambda架构，离线使用Hadoop做pipeline，near online做高效聚合，提供混合式架构，达到实时和一致性的妥协。
Kafka在linkedin起到奠基作用，一方面所有实时tracking都是通过它，另一方面 data bridge，比如图中通过kafka可以实现数据的无缝衔接，否则很难想像每个数据源异构系统，它们的通信将是 n^2 级别的复杂度。
分布式并不酷，如果考虑到高可靠性，强一致性而数据量并不是想像的大，不见得要使用；否则自讨苦吃。尽量使用成熟的，可靠的，例如MySQL, Memcached

求职经验

根据我的求职经验，我给出几点建议：

精选推荐

助力卷积神经网络时空特征学习史上最大行人重识别视频数据集被提出

[2017-12-25] 本文提出了一个大型的、长序列的、用于行人重识别的视频数据集，简称LVreID。与现有的同类数据集相比，该数据集具有以下特点：1）长序列：平均每段视频序列长为200帧，包含丰......

7种常见的机器人焊接类型

[2017-12-17] 机器人焊接是工业领域最常见的机器人应用之一，近几十年来主要由汽车行业驱动。机器人焊接在完成大批量，重复性的焊接任务时效率最高。...

比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03] 软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用，而不会杀死他们，并拿起像西红柿这样柔软的物体。” 从长远来看，布鲁塞尔大学队伍正在努力创建一个类似的材......

科学家从蟑螂获得启发教机器人更好地走路

[2017-12-11] Weihmann指出：“我特别感到惊讶的是，动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定，因为它的重心很低，三条腿总是以协调的方式运动。...

麻省理工正研究植物机器人让植物自主控制机器人

[2018-12-08] 控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人，但我们很少听说植物机器人对吧？一个机器人其实是对植物有很大益处的，因为一般植物根本无法移动......

麻省理工又秀神技：推出如魔法般跳跃的方块机器人集群

[2019-10-31] 几天前，小编向大家介绍过麻省理工（MIT）研发的一种自组装机器人集群（点此阅览），它们可以用统一标准的小单元自动组装出各种大型结构。 ...

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23] 谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月，虽然遭到竞争对手的质疑，但就 ...

改变保险市场的格局：无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08] 市场研究公司IHS Markit预测，到2020年，专业无人机市场将通过农业，能源和建筑等行业利用测量，制图，规划等技术实现77 1％的复合年增长率（CAGR）。与此同时，消费者无人......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

人工智能：听懂大数据的声音

[2016-08-07] 　　著名物理学家霍金教授说，忘了黑洞吧，女人才是宇宙最大的谜。但，未来这个最大的谜题因为大数据分析的出现而揭开谜底。人工智能是大数 ...

网友在什么时候发朋友圈可以看出贫富差距？

[2016-08-30] 收入不平等、教育不平等这些名词你都不会陌生。现在有人希望通过分析Instagram上图片分享的地理定位数据来告诉你什么叫做——社交 ...

实施大数据战略应重视数字经济法治体系建设

[2018-07-23] 随着信息技术在各个领域的全面应用,数据的种类、数量、速度和价值都出现了显著变化,一个大规模生产、分享和应用数据的时代已经开启。...

个人征信机构静待发令枪响业内:大数据并不便宜

[1970-01-01] 个人征信牌照发放在即。近日，《每日经济新闻》记者从多家机构获悉，央行对征信机构的验收工作已经收尾 ...

数据开放的经济学分析

[1970-01-01] 2009年美国启动开放政府计划，开启了国际政府机构以数据开放展开数据与信息分享的重要议题，在世界范围 ...