这些数据科学技能,才是老板们最想要的

这是一个好消息,如果你希望在2016年找一份数据科学的工作—在该领域职位空缺的数量正在不断增加,企业希望利用大数据来获得竞争优势。但事实上,找一份梦寐以求的数据科学工作就意味着你要具备一些技能的组合,你可能会惊讶学习哪些技能是雇主所最需要的。

最近,人们在CrowdFlower上针对Linkedin的3490个数据科学职位做了分析,并对最常出现的21个技能进行了排序。有些结果并不那么令人惊讶—SQL排在最前,而其它的结果可能是数据科学领域不断发展的领先指标。

如上所述,SQL是最常见的技能,在Linkedin发布的所有数据科学工作中占比达到了57%。Hadoop排在第二,占比49%。这并不出乎CrowdFlower公司CEO和创始人Lukas Biewald的意料。CrowdFlower是美国硅谷一家从事众包数据处理的公司。

“SQL和Hadoop排在前两位并没什么惊讶的,因为它们本身就是存储数据的技术”Biewald告诉Datanami(本文转译自该网站)。“每个数据科学家必须知道如何获取数据。如果你不知如何获取数据,那你什么都做不了。”

在所有数据科学的招聘信息中,python是排在第三名的技能。在CrowdFlower去年关于数据科学家哪些技能是最重要的调查中,python排在R的后面。但在本次招聘信息的调查中(这无疑是更具有前瞻性的范围),python作为数据科学的一项关键性技能占比达到了39%。相比之下,R是32%。

相比R来说,为什么现在越来越多的雇主正在寻找具备python技能的数据科学家?Biewald提出了自己的看法:“python的工具集越来越好。已经有很多基于python的统计工具”。“还有一个认识是数据科学不仅仅是统计学”。

设想一下,数据科学家80%的时间花费在数据清理和数据准备上,而只有20%的时间是用来做分析。这或许可以解释python突然出现的原因。

“我认为Python是做数据清理的语言,而R是做分析的”,Biewald说到。在创办CrowdFlower之前,他负责领导Yahoo的搜索相关团队。“由于数据科学更多的是做数据清洗和准备,python正变得越来越重要。它无疑是将数据整理成适合做分析的数据格式最好的语言”。

事实上,Java排在第四位让人有点摸不着头脑。因为Java本身不是数据科学所要求的掌握一门语言,当你在java中写Hadoop的时候,它的高配就显得有道理了。其它跟Hadoop相关的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

对于这份CrowdFlower从Linkedin编辑过来的职位列表,多少有些遗漏。Apache Spark,在上面给出的数据科学技能要求中没有出现过。Scala也没有出现过,它是在Spark框架内处理数据的主要途径之一。

这可能是因为Spark还比较前沿,大家对它知之甚少。“现在周围对它有很多炒作,但可能还是太早了”Biewald说到。“在CrowdFlower,我们已经开始使用它了。我认为这门技术很棒,但在企业真正使用它的时候会有些滞后”。

Spark和Scala可能是数据科学的未来(它们在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的许多高科技公司也在广泛的使用它们)。但不是每个数据科学项目或团队都需要走在技术的最前沿才能实现他们的大数据成果。“令人惊讶的是现在很多人都在寻找数据科学家,但是我认为他们中的很多人是不想走在最前沿的”Biewald说到。

这份CrowdFlower列表中包含了许多知名的数据分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald认为这些工具仍是有价值的并且在未来一段时间内还会继续使用。但是他希望它们的市场份额逐渐被那些专门为大数据设计的新工具所夺走。

“数据科学的角色大于统计学家”他说。“在我们的脑海里,这些旧的语言更多的是建立在统计学家的基础上,它们只是对少量的数据进行分析。而排名在前的Hadoop,python和Java则可以运行TB级的数据。你可以用SAS,SPSS,Matlab来做大数据分析,但这不是它们设计的目的”。

不是每个人都同意“数据科学”或“数据科学家”应该做什么以及应该掌握什么样技能的定义。事实上,一些人反对使用术语“科学”,而宁愿用诸如“应用统计”的短语。(想起了哈佛商业评论称应用统计学家是21世纪最性感的职业)

但在Biewald和其他人眼中,处理数据的能力和统计分析的能力同等重要。这就是他对数据科学家进一步给出的定义。

“在过去,我们处理几千条记录的时候不是特别难。但是,当数据量达到数十亿条记录的时候我们就需要真本事来得到一个规范的格式,以便我们进一步做回归或机器学习”他说。“对于这种情况,我想要聘请的是一名掌握python或者是C、Perl、Ruby亦或是一门更多做数据处理而不是做数据分析的语言的数据科学家”。

本文转自d1net(转载)

时间: 2024-12-02 09:20:53

这些数据科学技能,才是老板们最想要的的相关文章

因职业角色而异的十大数据科学技能

数据科学的实践需要三个一般领域的技能:商业洞察.计算机技术/编程和统计学/数学.与询问对象有关,具体的重要技能集合总是在变化.Dave Holts描述了得到数据科学家工作所需要的技能,Ferris Jumah通过检查带有"数据科学家"称号的LinkedIn个人资料识别10项技能,BurtchWorks提供了他们的在数据科学领域中获得成功至关 重要的技能列表,RJMetrics也使用LinkedIn数据找出了20个重要的数据科学技能.这些列表.重要技能反映了数据专业人员在他们社交媒体资

原来利用大数据兑现价值才是章鱼彩票真正想做的事

众所周知,大名鼎鼎的章鱼保罗在2008欧洲杯和2010世界杯两届大赛中先后预测过14次比赛,猜对13次.成功率高达92%,堪称不折不扣的"预言帝",只可惜那只神奇的章鱼在四年前预测完南非世界杯冠军后撒手"鱼"寰--而在今年的"中国彩票行业新力量论坛研讨暨2014年世界杯彩票盛典"上,一家专业做竞彩的网站脱颖而出,一举赢得"最具潜力彩票平台"大奖,值得注意的是,这家网站恰好与"预言帝"同名,叫做章鱼彩票.也许

如何真正学好数据科学?

作为一个全新的领域,数据科学的飞速发展让人激动.数据科学在带来巨大经济效益的同时,人们在数据科学技术方面的知识沟也逐渐出现,这意味着更多的人需要试图了解和学习数据科学. "我该如何学习数据科学"这个问题是初学者需要迈过的第一个门槛.大家在解决这个问题的时候,通常采用的办法是给自己安排一大串的课程去学习,当然还有一大摞的课本来阅读,线性代数和统计学成为大家必须要打交道的"新朋友".我们使出了"洪荒之力"拼了命地学习,我们甚至没有编程的学习背景,但是

福利 | 分析554条数据科学面试问题,给你靠谱求职攻略

◆ ◆ ◆ 导言 全世界顶尖的数据科学团队正在做着令人难以置信的工作,分析世上最有意思的数据集. 相比20世纪的研究者,谷歌(Google)拥有更多与人类利益相关的数据,而优步(Uber)每天无缝地协调着超过一百万人的行程.价格.借助机器学习和人工智能,顶尖的数据科学团队正在改变我们摄取和处理数据的方式,而且他们提出的众多确实可行的见解,影响了数百万人的生活.初出校门的你们.或者准备跳槽的你们,是不是激情澎湃地想要加入这史诗般的工作? 假若这些顶级数据科学团队的面试都有类似的模式,可以让求职者掌

想学数据科学?你可以做这五件事!

文章讲的是想学数据科学?你可以做这五件事,换工作绝非易事,但总有一些因素会非常吸引你,比如一份前景客观的薪资或一个不需要竞争的环境.在这个公平的数据科学时代,接下来这份不错的公开报告将会清楚地告诉你为什么不尝试迈出下一步呢?做好这五件事情,你可能可以找到一份满意的数据科学工作! 1.理解数据科学是什么 就学习而言,微软的网站可能不是你第一个想到的地方,但可以肯定地是,几个月前,软件巨头发布了一系列非常棒的关于数据科学初学者的五个短视频.每个视频都集中在某一个方面,例如"五个数据科学问题的答案&q

数据科学部门如何建立

 很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河.O'reilly Strata今年 六月份发布了报告 <Analyzing the Analyzers >,比较清晰的阐述了数据科学部门所需要的不同角色及其技能.重点内容翻译如下: 数据科学家的分类研究方法 自我认识 请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 "我觉得自己是一个XX" 这样的问题,能够获得数据科学家的自我认识结果.调查结果将数据科学家分为以下四类:Data B

图解数据科学领域的职位划分以及职责技能

随着数据科学领域的招聘信息越来越多,范围也越来越广.Datacamp根据最新的数据科学相关招聘信息,全面的了解各个行业之间数据科学领域每个职位角色之间的差异,以及所赋予的工作职责. 最主要分为以下几个职位:数据科学家.数据分析师.数据架构师.数据工程师.统计学家.数据库管理员.业务数据分析师.数据产品经理.下面通过信息图区分每个职位的角色介绍.必备语言技能. 1. 数据科学家  角色/任务 清洗,管理和组织(大)数据 必备语言 R,SAS,Python,Matlab,SQL,HivePig,Sp

4种数据科学工作,8项求职技能

[专题众筹] 为了更好的服务广大读者,大数据文摘发起<手把手教你XXX>专题众筹活动,XXX可以是"数据营销""数据运营""可视化""数据安全""数据治理"等系列文章,希望有能力愿分享的朋友一并参加,与我们一道推动数据思维.数据文化的传播.我们筹集的是大家的经验和时间,给大家的回报是(1)为各位参与者提供一个交流平台(2)文摘愿意免费宣传有贡献者个人及团队.有意者,请后台留言报名,谢谢! &qu

数据科学行业的8个关键角色:职责与技能

前言 第二届世界互联网大会的召开,将大数据战略推向了又一高潮,许多与数据相关的职位如雨后春笋般涌现,数据科学家.数据分析师.数据架构师.统计学家.数据库管理员.商业分析师和数据分析经理等.但是,许多业界人士表示分不清这些职位的区别,企业在招聘人员时,进行职位描述与岗位职责编写时略显混乱,应聘者在应聘这些职位时也不清楚这些这位的进入门槛.今天,大数据文摘将向大家推出8张数据科学相关职位信息图以及1张跟这些职位有关的薪酬信息图,带你了解数据科学行业的进入门槛与岗位职责. 引子 一天晚上,我和一位朋友