关于数据科学家面试的那些事儿

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud


数据科学是技术领域中最不明确的领域之一,这篇文章可能会给你下一次作为招聘人员或应聘者的面试带来启发!

招聘人员所要做的事

面试很困难,数据科学更是如此。每个公司对数据科学都有不同的看法。 更糟糕的是,许多人在招聘过程中或之后才发现他们想要什么。

作为招聘人员的责任是尽可能清楚地说明工作描述:需要的是数据工程师,可视化专家,数据分析师,算法工程师还是机器学习研究员? 知道你想要什么,并及早过滤。

这个工作的不确定性将会遗漏最好的候选人——除非你是Google 等。他们会想知道已经建立了什么工具,他们的工作的投资回报率如何衡量,在团队中有谁……



本文涉及“机器学习”数据科学家。

让数据科学家谈论他们所知道的

数据科学家有非常不同的背景。每一次面试都不可能做好全部的准备:他们是否应该学习“标准”计算机科学?统计?关于贝叶斯定理的?深度学习?机器学习?你公司的领域?

优秀的求职者有许多类别的基础知识,善于动手实践,并在一些领域拥有丰富的知识。如果你想进行技术讨论的话,这有一些例子:

  • 问题类型:回归/分类/聚类/异常检测…
  • 数据类型:计算机视觉/时间序列/ NLP /推荐系统…
  • 复杂数据:降维,流形学习…
  • 观点:深度学习/贝叶斯机器学习/图形模型…
  • 专长:行业洞察/优化/数值方法…

我的观点是“开放”1-1面试比办公室笔试要好。许多公司给出关键数据集,并要求分析。它可以帮助看出谁是务实的!对于有经验的求职者可以提问很多,问关于他们的项目,或在Kaggle / GitHub上的表现。



具有行业经验的求职者应该有失败的项目。 这些教训是必不可少的。

数据科学面试专题

然而,许多话题在数据科学面试中似乎是可争论的对象。 记住,目的是促进讨论:很少有一个唯一正确的答案!

机器学习与模型工程

  • 你目前正在讨论的任务有哪些算法?
  • 它们什么时候完成,足够完善,完善的基准,等等。
  • 它们是如何工作的?是如何测量的?它们的参数拟合是如何优化的?
  • 你如何评价一个模型的性能?根据上下文,这可以导致关于假正/假负、准确性、召回、AUC、提升等的讨论。这应该如何决定?
  • 你如何选择最终的模型?性能?训练时间?评估速度?复杂性?
  • 了解交叉验证和偏差/方差是至关重要的。
  • 你如何做变量和模型选择? 你可以考虑信息化指标、正则化、稀疏性诱导方法,如L1正则化、向前/向后搜索...

数据工程

  • 你如何设计X?
  • 你会对任务X做什么预处理?
  • 不平衡数据呢?丢失的数据?异常值?
  • 以及高基数的分类变量?
  • 如何处理大数据? 考虑在线学习、映射/化简、(小批量)随机梯度下降...
  • 你知道什么工具/语言可以实现X? 你使用哪些?为什么?
  • 你使用哪些可视化工具? 为什么?

作出决定?

这总是放手一搏的。你不可能仅在短短几小时内可靠地评估求职者过去项目中的参与情况,他们的专业知识,甚至你与他们的合作情况。

不要害怕选择具有不同背景和经验水平的求职者。 数据科学团队需要这样的人才。 如果你正在开始这样一个团队,就要依靠有专业知识的人:这是避免浪费时间的唯一办法。

作者:Arthur Flam ,企业家,数据科学家。三星的算法工程师。

Twitter: @ArthurFlam

博客:shapescience.xyz

Linkedin:linkedin.com/in/arthurflam

以上为译文

文章原标题《Interview questions for data scientists》,作者:Arthur Flam,译者:tiamo_zn,审校:李烽。

文章为简译,更为详细的内容,请查看原文

时间: 2024-08-01 11:11:33

关于数据科学家面试的那些事儿的相关文章

福利 | 分析554条数据科学面试问题,给你靠谱求职攻略

◆ ◆ ◆ 导言 全世界顶尖的数据科学团队正在做着令人难以置信的工作,分析世上最有意思的数据集. 相比20世纪的研究者,谷歌(Google)拥有更多与人类利益相关的数据,而优步(Uber)每天无缝地协调着超过一百万人的行程.价格.借助机器学习和人工智能,顶尖的数据科学团队正在改变我们摄取和处理数据的方式,而且他们提出的众多确实可行的见解,影响了数百万人的生活.初出校门的你们.或者准备跳槽的你们,是不是激情澎湃地想要加入这史诗般的工作? 假若这些顶级数据科学团队的面试都有类似的模式,可以让求职者掌

数据分析师面试常见的77个问题

  随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考. 1.你处理过的最大的数据量?你是如何处理他们的?处理的结果. 2.告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3.什么是:提升值.关键绩效指标.强壮性.模型按合度.实验设计.2/8原则? 4.什么是:协同过滤.n-grams, map reduce.

三步走——带你打造一份完美的数据科学家简历|(附件有PPT福利)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 互联网公司的秋招已经接近尾声,实习生的招聘已提上日程.今年互联网公司就业形势严峻,建议想投身互联网的同学早做准备以及找时间参加实习,一方面有机会能留在实习的公司中,另一方面实习经验也能为自己正式求职的简历增添一些筹码.那不管是在求职或找实习时,一份好的简历是一块敲门砖,能够给别人留下好印象,给自己带来一次笔试.面试的机会. 本文将介绍作为数据科学家(其他行业也可借鉴),如何制作一份优秀的简历,大大提升你通过简

每一位数据科学家都应掌握的理论是什么?

[导语]Jean-Nicholas Hould是就职于英特尔的数据科学家.针对热门议题--<检测真假数据科学家之二十问>,他认为,还有一问亦不可少,那就是:"什么是中心极限定理?它为什么重要?"你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?善于考究的,请阅读原文,不爱折腾的,请看编译文章(80%+内容为译者独立编写) 真假数据科学家检验之二十问 早在2009年,Google首席经济学家Hal Varian就给出了一个非常著名的论断:"在未

经历多个数据科学岗位后,对于数据科学面试他分享了以下求职心得

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 关于作者 项目: 社交媒介: • Notes on Dirichlet Processes • Twitter Cybersecurity的数据科学家和软件工程师. • Should I Get a Phd? • Github 喜欢数学.计算.交流.阅读.元组.摄影.哲学科学等. • Do You Play Ball? • Linkedin • Ultralight Backpacking for the U

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

导读   想去机器学习初创公司做数据科学家?这些问题值得你三思! 机器学习和数据科学被看作是下一次工业革命的驱动器.这也意味着有许许多多令人激动的初创公司正在起步成长.寻找专业人士和数据科学家.它们可能是未来的特斯拉.谷歌. 对于有职业抱负的你来说,看好一家好的创业公司团队后,如何能够脱颖而出,进入一家靠谱的创业团队呢? 想得到这样的工作并不容易.首先你要强烈认同那个公司的理念.团队和愿景.同时你可能会遇到一些很难的技术问题.而这些问题则取决于公司的业务.他们是咨询公司?他们是做机器学习产品的?

如何成为全栈数据科学家?

Warald指出:统计.编程.商业嗅觉三项全能的全栈数据科学家非常罕见.如果欠缺这三项中的1-2项,但是还是想成为全栈数据科学家,还有可能吗?答曰:当然.除了读书,你还可以在工作当中继续学习.不断提高.那么,该如何加强背景?该选择加入什么样的公司(或者说团队)?Warald给出一些建议. 首先感受一下自己喜欢多快的步伐,喜欢把事情做的多么细致.网络创业公司代表快+准确率不太高的极端,制药公司代表慢+极其准确的极端.即使都在互联网创业公司范围,不同产品的公司也对步伐要求不同,值得好好体会一下. 其

20个问题揭穿冒牌数据科学家

如今数据科学家正式成为21世纪最性感的工作,人人都想来分一杯羹. 这也意味着会有一些冒牌货.这些人自称数据科学家,却不具有相应的技能. 这不见得是有意欺骗.数据科学是崭新的领域,目前对此岗位也缺乏被广泛认可的描述.这意味着许多人会认为自己是数据科学家,仅仅因为他们常跟数据打交道. "冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正的数据科学.这种想法忽略了一个事实:数据科学是一整套科学工具与技术(数学,计算,视觉,分析,统计,试验,问题界定,模型建立与检验等)的集合,用于从

一篇文章告诉你如何成为数据科学家

文章讲的是一篇文章告诉你如何成为数据科学家,通常来说,年轻人都很容易立志成为什么,例如成为一名科学家,然后又很快放弃.这一方面是因为摆在他们面前的诱惑太多,也因为成为一名科学家真的很不容易. 这一点放在数据科学上尤其突出.实际上,近年来随着数据科学和机器学习的火爆,我们经常能遇到刚毕业的大学生立志成为数据科学家,但很快又放弃的例子.究其原因,我认为在很大程度上是因为要成为一名真正的数据科学家,需要掌握的专业知识实在是太多了:包括计算机科学.编程基础.数学知识.机器学习算法甚至商业洞察力等等. 看