美国大数据工程师面试攻略有哪些?

大家好,我是来自硅谷的董飞,应国内朋友邀请,很高兴跟大家交流一下美国大数据工程师的面试攻略。

个人介绍

先做一个自我介绍,本科南开后,加入了一个创业公司kuxun,做实时信息检索,后来进入百度基础架构组,搭建了Baidu App Engine的早期版本,随后去Duke大学留学,在攻读硕士期间,做跟Hadoop大数据相关的研究项目Starfish,之后在Amazon EC2部门实习,了解它们的内部架构,毕业后加入Linkedin,做广告组的架构,涉及Hadoop调优,Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。

在多年工作中,除了对技术的不懈追求,也积累了大量的面试经验,从国内的一线互联网公司百度、阿里巴巴、奇虎、人人,到美国一线公司Facebook、Google、Linkedin、Twitter、Amazon,到热门Startup、Uber、Pinterest、Airbnb、Box、Dropbox、Snapchat、Houzz,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于分享并帮助很多人成功求职,实现目标。

硅谷高科技公司介绍

我们看一下这张硅谷地图,它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,这里就有很多硬件公司成功上市,如Intel、Oracle、Apple、Cisco。10年前,互联网的兴起,造就了Yahoo、Google、Ebay的神奇。而如今Tesla、Facebook、Twitter、Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千,疯狂的估值背后也改变了世界。

如果说硅谷成功是有原因的,我觉得有两点:

一方面,地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国、印度人、犹太人是构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰的。

另一方面,创业是一个永恒的话题,在Stanford有个说法——空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator、各种技术Forum、Meetup、创业导师等都很活跃。资本的力量功不可没,早年VC通过投资、收购、上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个Facebook,下一个Musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。

我就拿Linkedin作为例子,介绍高科技公司(FLG)是什么样子。它是成立于2003年的职业社交网站,在10年的发展中,也不是一下子爆发的,目前有3亿的全球用户,虽然跟Facebook、Google 10亿+用户没法比,但是它有很好的护城河,用户定位高端精准,单位价值高。这张照片中左边这位是创始人Reid Hoffman,是Paypal黑帮成员,在硅谷也是呼风唤雨的大佬,目前是董事和投资人。中间这位是CEO Jeff,2013年被Glassdoor评为最佳CEO,作为职业经理人,成功帮助linkedin高速成长,他最喜欢提到transformation,希望我们每个员工能挑战自我,在各自岗位上进化。

Linkedin提供了员工很好的福利,有号称湾区最佳的免费食堂,每个月一次的In day,Hack day,帮助员工内部创业的Incumbator计划。它特点是数据驱动的开发产品,比如 People you may know, Job you may be interested。我做过Sponroed Ads 都是需要很强数据背景和Data scientist的支持。它的Biz model也很独特,有3个line,面向公司的招聘服务,面向广告商的市场服务,面向个人的订阅服务,还有最新Sales Solution,因为这么多可能性,成为华尔街的宠儿。

硅谷最新的创业动向

说硅谷,除了那些已经成功的大公司,不得不说一下现在最新的创业动向,这些代表了未来下一个FLG。我总结了一些领域和代表公司:云计算(Box, Dropbox)、大数据(Cloudera)、消费互联网(Pinterest)、健康(Fitbit)、通讯(Snapchat)、支付(Square)、生活(Uber)。

这里是华尔街网站更新的最新融资规模,比如Uber就达到18Billion的估值,我当时拿到Offer没去,还是觉得很疯狂,如果细看这张表,大家可以看到硅谷(蓝色)尤其是旧金山它们的融资规模远远大于其他地区,还是地理决定论。而在国内的两家小米,京东都是在北京,而最近大家看到一些泡沫论,说什么阿里巴巴上市是否美股到顶,经纬VC创始人也提醒我们泡沫的风险,我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 《浪潮之巅》、《奇点临近》,我还是很期待未来20年的技术革命。

大数据相关技术

我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,big data is like teenage sex: everyone talks about it, nobody really knows how to do it. 其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个,如果你用不好,你的压力很大的,举个例子,你用某个开源数据库,发现它偶尔有数据丢失怎么办,如果这是线上服务,你不断收到报警,这时候你当时选用它的优点 scalable,容错性都没意义了。

接着说大数据,这里面Hadoop作为行业标准,我面过的除了Google,微软不用,几乎所有的公司都在用,建议大家利用这个机会。这里面有三巨头,Cloudera是老牌Hadoop咨询公司,Hadoop的创始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 编码方式高效而著名,它们都是融了巨资,模式也很像,先推出社区免费版,但有个商业版提供更好的管理。 而今年出现一匹黑马Spark,简单说就是内存级别的计算,比Hadoop框架里能节约IO,利用缓存,能适应批处理,迭代,流式计算。

这里看一下它的生态系统,如何学Hadoop是个循序渐进过程,先要理解学习它的Core系统,HDFS, MapReduce, Common,在外围有无数的系统工具方便开发,我个人用过的是Avro作为数据格式,Zookeeper作为选主的高可靠性的组件,Solr作为搜索接口,Pig搭建工作流,Hive 数据仓库查询,Oozie管理工作流,HBase 作为KV分布式存储,Mahout数据挖掘的库,Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。

而Hadoop本身也是个进化过程,几年前0.19版本,到0.20、0.23分流成Yarn架构,最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的,但总体上Hadoop 2.0 是趋势,因为它有Yarn这样分离的资源管理平台,可以以插件的方式开发上面的Application,解放了生产力,而像Spark,Storm这些新型处理器也是支持Hadoop 2.0的。

这里是Hortonworks它们提出来的社区版本架构,可以说标准的制定者,一流的公司制定标准,其他的公司一般用只能用它们提供的稳定版,没有多少话语权。但从事大数据,并不见得是要去这些制定标准的公司,大量的应用也是非常考验架构的灵活性,并且能看到实际的产品,很有成就感。

说到2014年火的,还是要看Spark。已经开了2届Spark大会,上千人的规模,无数人对比

时间: 2024-09-11 03:17:37

美国大数据工程师面试攻略有哪些?的相关文章

美国大数据工程师面试攻略

原文发布时间为:2014-09-24

你们是不是真的很缺大数据工程师?

00 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的. 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了. 所以,有些东西.有些想法我还是愿意分享出来的,畅所欲言吧~~ 01 我眼中的大数据现状! 其实个人在大数据在大数据这个坑中,细细算来,时间也有3+年了,从一开始做大数据中心平台开发构建,到现在关注的数据上层应用挖掘.所以,基本上从数据

你们是不是很缺大数据工程师?

缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的. 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我啦. 所以,有些东西.有些想法我还是愿意分享出来的,畅所欲言吧~~ 1.我眼中的大数据现状 其实个人在大数据在大数据这个坑中,细细算来时间也有3+年了,从一开始做大数据中心平台开发构建,到现在关注的数据上层应用挖掘.所以,基本上从数据收集->数据处理(

如何成为一名大数据工程师?

导 读 大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策. 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌

如何成为一名优秀的大数据工程师

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策. 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才

谁能做大数据工程师?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策.这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才市

大数据工程师成稀缺资源 拥有怎样的学识才能胜任

大数据发展如火如荼势不可挡,IT公司们也是不管怎么样都要和大数据扯上关系,才显得自己有水平,但大数据并不是谁都可以做的,想做好大数据,就要有个优秀的大数据工程师,通过对数据的挖掘分析来影响企业的商业决策. 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.

大数据工程师练成记之首重:知识体系一览!

我们想要告诉大家的是成为大数据工程师需要掌握的知识体系,而作为初学者,你可以先从简单的入手,慢慢在学更深的知识,拿出高考的恒心和坚持来,肯定能行. 值得一提的是,目前大数据工程师的月薪都是20K起,月收入两万的薪资是不是很诱人?而且大数据工程师是非常容易找到工作的,所以--Why not 不扯犊子了,由于篇幅所限,这一部分内容主要包括数据可视化.机器学习和算法三个分支. 数据可视化 R R不仅是编程语言,同时也R具有强大的统计计算功能和便捷的数据可视化系统.在此,推荐大家看一本书,这本书叫做<R

2017年,大数据工程师应该如何充实自己的专业工具箱

随着互联网应用的普及.智能硬件的发展,数据产生的速度呈现了持续爆炸式的增长,数据产生的价值也已不仅取决于空间维度,同时开始在时间维度进行延展,因此提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值.这在阿里双十一大促这样的场景中表现的尤为明显,用户行为和商品变化信息带来的价值都是短暂有效的,因此大数据后台系统需要在线收集用户行为和商品变化等信息,实时调整搜索和推荐策略,为用户和商家提供更精准的服务. 在实时计算领域,Apache Storm.Samza.Spark Str