2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况。本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者、业界最新动态以及如何进入该行业的数据支撑。以下报告包括本次调查的几个主要结果,其中包括:

  1. 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言。
  2. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度受访者的平均年龄要比澳大利亚的小 9 岁。
  3. 被调查者教育程度最多是硕士,但在工资最高的(超过15万美元)人群中,拥有博士学位的人则更多。

Kaggle 已经公开了该调查的匿名数据集,以供大家进行研究,可以从此处下载:https://www.kaggle.com/kaggle/kaggle-survey-2017。

谁在工作中与数据打交道?

分析数据从业者的方式有很多种,本文将从有关数据科学从业者的工作、背景等人口统计学信息开始。

年龄多大?

从下图可见,本次调查对象的平均年龄大约为 30 岁,但各个国家的这个值有所不同。例如印度调查对象的平均年龄就比澳大利亚的小了 9 岁。


目前的就业状况如何?

受调查者中,有 65.7% 表示自己有全职工作。


职位是什么?

尽管我们把数据科学家定义为使用代码分析数据的人,但我们发现数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是“科学家或者研究员”。


全职工作的年薪是多少?

中位数55441美元,不过由于很多人没有全职工作(收入为 0),所以这一数字并不准确。尽管在我们的调查中“补偿和福利”的重要性稍微比“职业发展机遇”低一些,不过知道什么是合理的补偿依然不错。在美国,一般机器学习工程师带回家最多的东西是培根。

有131个回复由于超出最大值而没有显示出来,但它们被算进了中位数。

最高学历是什么?

你需要再去读一个学位吗?通常来讲,数据科学从业者中最常见的学历是硕士,但是获取最高薪水(15万到20万美元,以及高于20万美元)的那些人大多有着博士学位。

被调查者的大多是 30 岁左右,硕士学历,年薪5.5万美元左右,拥有数据科学家的职位。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。

数据科学家的工作内容是什么?

我们把数据科学家定义为写代码来分析数据的人。他们的日常工作内容是什么呢?以下是我们的调查结果。

工作中使用哪些数据科学方法?

逻辑回归是工作之中最为常用的数据科学方法,不过在神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。


工作中使用最多的编程语言是什么?

Python是数据科学家最常用的语言,也是最常用的数据分析工具。不过,也有很多数据科学家仍然保持着对 R 语言的忠诚。


在工作中常用的数据类型是什么?

关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。


如何分享工作中的代码?

尽管很多受访者(58.4%)在工作使用 Git 来分享代码,但大公司中的开发者更倾向于将代码保留在本地,并通过像 Email 那样的文件共享软件来分享代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。


工作中遇到的障碍主要有哪些?

脏数据(dirty data)显然排在了第一位,也就是说,数据科学家最常见的困扰就是需要对数据进行大量的预处理工作。除了数据预处理之外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以了解它们的性能也会有一些困难。


数据科学家初学者如何进入这个领域?

当开始一个新的职业生涯的时候,参考别人的成功经验会很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何入门的。以下是我们最喜欢的几条建议:

你们会推荐数据科学家新手最先学哪门语言?

每一位数据科学家都有自己的对选择第一门语言的想法。事实证明,那些仅使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们有两倍的可能会把 Python 推荐给你。


你们使用哪些数据科学学习资源?

数据科学是一个发展迅速的领域,有很多有价值的资源可以帮助你学习并保持业内的顶尖位置,从而不断提升你的竞争力。已经在数据科学领域中工作的人们会更多地使用 Stack Overflow Q&A,Conferences 和 Podcasts。如果想要发布内容或开源软件,请时刻记住刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。


你们在哪里获取开源数据?

没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。很高兴我们的数据集聚合器正发展为数据科学社区成员中使用最频繁的工具。


如何找工作,并且又是如何找到的?

在寻找工作地时候,人们可能会去公司网站,或在指定技术方向的招聘信息中寻找机会,但是根据数据科学领域工作的人们的经验,这些方式无疑是最差的选择。直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。

注意:少于 50 名受访者的组别被合并进了“Other”类中。其中一些柱状图为了美观而做了缩放处理。如果想要查看所有问题和结果的原始数据,请访问:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results

文章原标题《The State of Data Science & Machine Learning》,作者:Kaggle Inc,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

时间: 2024-09-08 06:49:08

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言的相关文章

10个2017的预测:数据科学、机器学习和物联网

近日, Vincent Granville在Data Science Central上撰文对2017的数据科学.机器学习和物联网进行了预测. 以下为译文 又到了分享对2017年的预言的时候了,这里抛砖引玉,也希望各位发表自己的观点. 1. 数据科学和机器学习将变得更为主流,特别在以下领域:能源业.金融业(银行.保险).农业(精耕).运输业.城市规划.医疗保健(定制治疗),甚至是政府方面. 2. 某些数据科学的门外汉想要创建合法的,有关如何分析数据.算法怎样运转的体系,并打算强制公开算法的秘诀.我

数据科学和机器学习工具和语言最新动态

文章讲的是数据科学和机器学习工具和语言最新动态,第18届年度KDnuggets软件投票又一次受到了分析.数据科学界和软件生产商的热情参与.与去年相似,约有2900人参与了此次投票.最近几年,Python的使用增长率一直比R快,到今年,Python终于以微弱的优势超过了R的使用率 (52.6% Vs 52.1%).然而最大的惊喜应该是深度学习工具的广泛共享和使用.2017年深度学习有32%的使用率,而在2016年只有18%,2015年9%.谷歌Tensorflow迅速成为深度学习平台的领头者,以2

Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?

近日,kdnuggets做了一个关于数据科学.机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论--Python已经打败R语言,成为分析.数据科学和机器学习平台中使用频率最高的语言.有关此次问卷更具体的情况如何?笔者将kdnuggets上发表的总结文编译整理如下: 之前我们在kdnuggets上做了这样一个问卷调查,2016.2017两年,在分析.数据科学和机器学习的工作中,你用R语言,还是Python,或两者都用,或选择其他的语言? 通过分析954个回答,我们得出了这样的结论:虽

2017数据科学职位报告:R超过SAS

文章讲的是2017数据科学职位报告:R超过SAS,招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行.本文作者以美国最大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势. 为了公平,本文采用了一种专门的方法,用来在数据科学职位范围内统计每种软件的招聘数量,文中所有的图片也都是在这个前提下取得的,统计日期为2017年2月24日. 正文 各种软件招聘量见下图.其中最多的是SQL,将近18000,然

不容错过的2017数据科学15大热门GitHub项目

介绍: GitHub现在不再仅仅是一个软件寄存管理器,而是软件工程师通过它来共享他们自己开发的工具/库,甚至这些资源对一些公司都很重要.作为一名狂热的数据科学爱好者,我总结了一系列在2017年尤为出名的知识库! 目录: 1.学习资源库: 1.Awesome Data Science 2.Machine Learning / Deep Learning Cheat Sheet 3.Oxford Deep Natural Language Processing Course Lectures 4.P

Cloudera全新数据科学工作台加快企业数据科学及机器学习

近日,机器学习和先进分析平台提供商Cloudera发布了测试版Cloudera数据科学工作台(Data Science Workbench),它是一款基于Cloudera企业版运行数据科学的自助工具.Cloudera数据科学工作台以去年所收购的数据科学初创企业Sense.io的技术为基础,使数据科学家可以使用其偏好的开源语言(包括R.Python和Scala),集成原生Apache Spark和Apache Hadoop的安全企业平台上的资源库,从而加快分析项目从探索到生产的进展速度. Clou

2017数据科学职位报告:R超过SAS,但仍不如Python

更多深度文章,请关注:https://yq.aliyun.com/cloud Bob Muenchen <R for SAS and SPSS Users>的作者,r4stats.com(分析数据科学软件趋势.帮助人们学习R语言的一家网站)的创办者:同时也是ASA官方认证的专业统计学家(30年从业经验),现任田纳西大学OIT Research Computing Support的管理员. 前言 招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行.本文作者以美

《Python数据科学指南》——第1章 Python在数据科学中的应用 1.1 简介

第1章 Python在数据科学中的应用 在这一章里,我们将探讨以下主题. 使用字典对象 使用字典的字典 使用元组 使用集合 写一个列表 从另一个列表创建列表--列表推导 使用迭代器 生成一个迭代器和生成器 使用可迭代对象 将函数作为变量传递 在函数中嵌入函数 将函数作为参数传递 返回一个函数 使用装饰器改变函数行为 使用lambda创造匿名函数 使用映射函数 使用过滤器 使用zip和izip函数 从表格数据使用数组 对列进行预处理 列表排序 采用键排序 使用itertools 1.1 简介 Py

2017年全球工业控制系统网络安全现状调查

6月18日讯 迫于工业控制系统面临的威胁格局,各国都开始重视ICS的威胁格局.现实世界当中仅出现过三例针对工业控制系统的恶意程序肆虐案例,BlackEnergy(2015年12月被用于乌克兰电网攻击).Havex(主要用于攻击欧洲境内组织)以及最为知名的美国政府开发之Stuxnet(即震网病毒,2010年被用于伊朗核设施),以及最近被报道的Industroyer.工业控制系统(ICS)公司面临特殊的网络安全挑战. 使用工控系统的公司可能会先安装设备,之后放置很长一段时间.迫于降低运营成本的压力,