R、SQL、Python,看数据科学家最喜欢的编程语言

数据的爆炸增长以及公司将数据转化为商业价值的巨大可能性,不断增加着市场对数据科学家的需求。

但是,一个合格的数据科学家必须具备哪些技能,拥有什么样的教育背景呢?数据科学家在团队中的角色是什么?数据科学家大多使用什么工具和编程语言呢?这些就是米兰理工大学的大数据分析观测台通过一项针对数据科学家的国际调查正在研究的部分问题。如果你的工作与数据有关,也可以支持一下这个完全匿名的调查( survey)。

除了基础的数据科学相关的技能,编程是数据科学家务必要具备的五种主要能力之一,即使就专业知识而言这不是最相关的。

迄今为止世界范围内已经有超过200位数据科学家参与了调查,然而结果显示并没有一种在数据科学领域占绝对优势的编程语言,但是也似乎主要集中在有限几个选项里:几乎96%的参与者断言至少要用R,SQL或者Phython中的一种。

值得一提的是,当前的调查中排名第一的是53%的数据科学家选择的的由R Foundation for Statistical Computing提供支持的R语言。一开始R主要是在统计学家或学术圈内流行,但近几年被相当多的应用于数据科学。如今R是最受欢迎的开源语言之一很多大型的网络社区都支持它。

即使早在20世纪70年代初就得以发展,SQL在当今仍然发挥着重要作用(约49%的数据科学家选择SQL,排名第二)。尽管SQL不太适合处理非结构化的数据组(典型的比如大数据),但是分析组织中结构化的数据仍然很有必要,而SQL就非常适合用来处理这类数据。

排名第三的Python(43%)因为灵活而且相当容易上手,近几年大受欢迎。和R语言一样,也有很多大型社区致力于促进Python的提高并且建立一些特定的packages。

前五名中最后两个分别是Unix Shell/AWK/Gawk(15%)和Java(8%)。

如果你是一个数据科学家并且想要得到更详尽的调查结果包括研究的主要发现和最终结果,完成调查问卷并留下email,我们可以发送给您资料。
原文链接:Top programming languages for Data Science: first partial survey findings

时间: 2024-08-28 13:32:09

R、SQL、Python,看数据科学家最喜欢的编程语言的相关文章

数据科学界华山论剑:R与Python巅峰对决

如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习机器语言,我应该用哪个编程语言"或者"我想快速解决问题,我应该用R还是Python"等这类问题.尽管两个编程语言目前都是数据分析社区的佼佼者,但是它们仍在为成为数据科学家的首选编程语言而战斗.今天,就让我们从数据科学的角度,一步步比较这两大编程语言. #1 对阵双方介绍 Ladies and Gentlemen,让我们隆重的

如何成为一名数据科学家?

作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:"如何才能获得一份数据科学家的职位?" 不仅这个问题经常被问引起了注意,另外问这个问题的人不同的背景也非常很令人感兴趣.作者曾经和以下这些职业的人有过类似对话:软件工程师.数据库开发者.数据架构师.保险精算师.数学家.学术界人士(不同领域).生物学家.天文学家.理论物理学家-我还能接着往下数.通过和他们的这些谈话,作者发现在这之中有很大的误解存在,很多人都非常困惑--为了闯入这个领域的话,他们需

如何成为一名数据科学家?

编者注:作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:"如何才能获得一份数据科学家的职位?" 不仅这个问题经常被问引起了注意,另外问这个问题的人不同的背景也非常很令人感兴趣.作者曾经和以下这些职业的人有过类似对话:软件工程师.数据库开发者.数据架构师.保险精算师.数学家.学术界人士(不同领域).生物学家.天文学家.理论物理学家-我还能接着往下数.通过和他们的这些谈话,作者发现在这之中有很大的误解存在,很多人都非常困惑--为了闯入这个领域的话

如果想成为数据科学家,请学习这3种语言

随着大数据的应用与发展,各行业对具有数据科学技能的开发人员的需求持续增长.而希望成为数据科学家的技术人员需要学习如何融入这个领域的职业生涯. 寻求扩大在技术领域的技能?据技术招聘网站Indeed Prime主管Shu Wu介绍,目前对拥有数据科学技能的开发人员的需求目前"非常强劲",过去四年来,数据科学家的职位需求"大幅增长". Shu Wu说:"数据科学家就业前景看好,平均薪酬很高,但成为数据科学家是很艰难的.数据科学家是一个研究数据的伟大的专家,能够使

数据科学家最常用的十种算法和方法

最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法. 下面是调查结果,总调查人数是 844 人. 数据科学家最常用的Top 10种算法和方法,以及投票比例: 表1:数据科学家最常用的Top 10算法&方法.所有算法和方法的列表在文末. 说明:这个投票的本意是找出数据科学家最常用的工具,但"工具"这个词含义不明确,所以为了简便我最初把这个表成为top 10"算法".当然,正如有读者指出的,&qu

Kaggle首次定义数据科学家:30岁,年薪5万刀,爱Python,最恨脏数据

今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告.这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一些有趣的结论: Python可能是机器学习最常用的编程语言,而统计学家更多地使用R语言: 数据科学家的年龄中位数是30岁,而各国差异巨大,比如,印度的受访人比澳大利亚平均年龄年轻9岁: 受访者中硕士学位所占比重最大,但薪水最高的从业者($150k)多数拥有博士学位. 本次报告的发布也别具一格地采用了

R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺. 当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作.但通常来说,如今大数据方面有三种语言可以选择:R.Python和Scala,外加一直以来屹立于企业界的Java.那么,你该选

《Python数据科学实践指南》——0.2 如何成为数据科学家

0.2 如何成为数据科学家 读者应该知道这个问题很难回答,失败的原因总是相似的,成功的经历却各有不同.从来没有人靠复制他人的经历就能获得同样的成就,就像"人不能两次踏入同一条河流"的哲学观点一样,没有人可以复制别人的经历,更何谈成就.因此在回答这个问题时,我只假设一些概念上的前提条件:良好的计算机科学基础,较高的英文读写水平,极强的自学能力,还有一些个人品质比如耐心.毅力.乐于分享,等等.不过最重要的还是"兴趣",我相信能花上几十块钱购买这本书的读者一定是有兴趣的,

《Python数据科学实践指南》一0.2 如何成为数据科学家

0.2 如何成为数据科学家 读者应该知道这个问题很难回答,失败的原因总是相似的,成功的经历却各有不同.从来没有人靠复制他人的经历就能获得同样的成就,就像"人不能两次踏入同一条河流"的哲学观点一样,没有人可以复制别人的经历,更何谈成就.因此在回答这个问题时,我只假设一些概念上的前提条件:良好的计算机科学基础,较高的英文读写水平,极强的自学能力,还有一些个人品质比如耐心.毅力.乐于分享,等等.不过最重要的还是"兴趣",我相信能花上几十块钱购买这本书的读者一定是有兴趣的,