数据科学和机器学习工具和语言最新动态

文章讲的是数据科学和机器学习工具和语言最新动态,第18届年度KDnuggets软件投票又一次受到了分析、数据科学界和软件生产商的热情参与。与去年相似,约有2900人参与了此次投票。最近几年,Python的使用增长率一直比R快,到今年,Python终于以微弱的优势超过了R的使用率 (52.6% Vs 52.1%)。然而最大的惊喜应该是深度学习工具的广泛共享和使用。2017年深度学习有32%的使用率,而在2016年只有18%,2015年9%。谷歌Tensorflow迅速成为深度学习平台的领头者,以20.2%的使用率领先于其他平台。它去年的使用率只有6.8%,但在今年它进入了使用工具的前10名。2014年分析、数据挖掘、数据科学的主要工具有四种:R、Python、SQL和SAS,而2017年达到了五种,分别是Python、R、SQL、Saprk和Tensorflow。RapidMiner以33%左右的使用率占据着数据挖掘/数据科学中最流行的通用平台前列,这和2016年几乎完全一样。

  我们注意到,许多软件厂商都鼓励自己的用户投票给自己,但所有的软件厂商都有平等的机会这么做,因此这并不违反KDnuggets准则。我们没有看到任何机器自动投票或只投给一个工具的情形。

  Spark增长到约23%,在Hadoop体系中保持前10位的领先地位。

  除了TensorFlow外,在顶端也出现了另一个新工具Anaconda,有22%的使用率。

  分析、数据科学、机器学习领域使用率居前的工具


▲表1:分析/数据科学领域2015-2017年KDnuggets 投票结果对比

  上图展示了前11名的结果,每一个实用工具的支持票数都超过了500。在上表中 ,”2017%Usage”是今年使用这个工具的投票者百分比, “%Change 2017 Vs 2016″ 是与2016年使用情况的对比,这里用绿色和红色高亮表示改变超过5%以上的情况,”% alone” 是只使用当前工具的投票者占比。每个投票者工具平均使用数为6.1,和2016年6.0相比几乎没有变化 。对比于 2016年 KDnuggets分析/数据科学票选结果,前11名中新晋的工具是Anaconda和Tensorflow。

  各个区域的参与度如下:

  1、美国/加拿大(41.5%)

  2、欧洲(35.5%)

  3、亚洲(10.1%)

  4、拉丁美洲(6.5%)

  5、非洲/中东地区(3.8%)

  6、澳大利亚/新西兰(2.7%)

  趋势新工具在调查中有超过2%的使用率是? Keras(9.5%)? PyCharm(9%)

  1、微软R(4.3%)

  2、IBM DSX(3.0%)

  3、PyTorch(3.0%)

  4、Teradata(2.4 %)

  下表列出了在2017年里使用增长率超过20%且使用率至少达到2%的工具,这其中包括5个深度学习工具和4个Microsoft工具。


▲表2:使用率增长最快的分析/数据科学工具

   DataRobot 虽然使用率不足2%,但它从2016年的0.5%增长到了2017年的1.9%。我们注意到,在2016年中至少有2%使用率的工具中,有22个使用量在增加,27个处于下降阶段。这表明,数据科学平台市场仍然没有被整合起来。下表展示了在2016年至少有2%的使用率,但在2017年使用率至少减少了20%的工具。Turi和Salford在最近被收购,Perl和Octave被Python和R打败,RapidInsight也许是没有提醒其用户投票给自己,QlikView很可能输给了Tableau,C4.5可以算是过时技术了。有趣的是,Hadoop体系的的开源工具里,针对于MLlib和其他免费开源分析/数据挖掘工具的使用量也在减少。


▲表3:使用率下降最快的分析/数据科学工具

深度学习工具今年深度学习工具的使用率跃升到32%,2016年只有18%,2015年的9%。谷歌Tensorflow是占主导地位的平台,取代了去年的领导者Theano / Pylearn2。排名前列的工具有:

  1、Tensorflow,20.2%使用率

  2、Keras,9.5%

  3、Theano,5.8%

  4、Other Deep Learning Tools,4.8%

  5、Mirrosoft CNTK,3.4%

  6、Caffe,3.1%

  7、PyTorch,3.0%

  8、DL4J 2.2%

  9、MxNet,1.8%

  10、Torch,1.2%

  11、Lasagne,0.9%

  Hadoop的/大数据工具我们已经简化了Hadoop体系下的针对于Hadoop/Spark类工具的的分类。Hadoop下的商业/开源工具、SQL和Spark的使用率占到了33%。这比2016年的39%略低,但2016年很多工具都被划分为大数据工具。2015年,Spark/Hadoop的工具使用率为29%。在2017年的大数据工具的使用是:? Spark,22.7%

  1、Hadoop 开源工具,15.0%

  2、Hadoop SQL,10.3%

  3、Hadoop 商业工具 7.6%

  Python、Java、Unix,scala大受欢迎 而C/C ++,Perl,Julia,F#,Clojure和Lisp下降。以下是按投票排名的主要编程语言:? Python,52.6%的使用率(2016年45.8%)

  1、R,52.1%(2016年49.0%),增长6%

  2、SQL,34.9%(35.5%),下跌2%

  3、Java,13.8%(16.8%),下跌18%

  4、Unix Shell/ AWK / GAWK,9.6%(10.4%),下跌7%

  5、C/C ++,6.3%,(7.3%),下跌13%

  6、Perl,1.7%,(2.3%),下跌27%

  7、Julia,1.1%(1.1%),无变化

  Python不断学习竞争对手Julia,持续增长,然而Julia的使用率却令人惊讶地保持了不变。

作者:GregoryPiatetsky

来源:IT168

原文链接:数据科学和机器学习工具和语言最新动态

时间: 2025-01-01 20:12:49

数据科学和机器学习工具和语言最新动态的相关文章

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况.本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者.业界最新动态以及如何进入该行业的数据支撑.以下报告包括本次调查的几个主要结果,其中包括: 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同.例如,印度受访者的平均年龄要比澳大利亚的小 9 岁. 被调查者教育程度最多是

Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?

近日,kdnuggets做了一个关于数据科学.机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论--Python已经打败R语言,成为分析.数据科学和机器学习平台中使用频率最高的语言.有关此次问卷更具体的情况如何?笔者将kdnuggets上发表的总结文编译整理如下: 之前我们在kdnuggets上做了这样一个问卷调查,2016.2017两年,在分析.数据科学和机器学习的工作中,你用R语言,还是Python,或两者都用,或选择其他的语言? 通过分析954个回答,我们得出了这样的结论:虽

Cloudera全新数据科学工作台加快企业数据科学及机器学习

近日,机器学习和先进分析平台提供商Cloudera发布了测试版Cloudera数据科学工作台(Data Science Workbench),它是一款基于Cloudera企业版运行数据科学的自助工具.Cloudera数据科学工作台以去年所收购的数据科学初创企业Sense.io的技术为基础,使数据科学家可以使用其偏好的开源语言(包括R.Python和Scala),集成原生Apache Spark和Apache Hadoop的安全企业平台上的资源库,从而加快分析项目从探索到生产的进展速度. Clou

10个2017的预测:数据科学、机器学习和物联网

近日, Vincent Granville在Data Science Central上撰文对2017的数据科学.机器学习和物联网进行了预测. 以下为译文 又到了分享对2017年的预言的时候了,这里抛砖引玉,也希望各位发表自己的观点. 1. 数据科学和机器学习将变得更为主流,特别在以下领域:能源业.金融业(银行.保险).农业(精耕).运输业.城市规划.医疗保健(定制治疗),甚至是政府方面. 2. 某些数据科学的门外汉想要创建合法的,有关如何分析数据.算法怎样运转的体系,并打算强制公开算法的秘诀.我

一份语言选择指南带你玩数据科学,选出你心中支持的语言

更多深度文章,请关注:https://yq.aliyun.com/cloud 随着大数据时代的到来,网络每天会产生大量的数据,一些行业会对这些数据进行分析并协助企业不断地发展新业务.创建运营模式等,比如电子商务.推荐系统等.那么谁对这些大数据进行分析呢?对应的工作领域是数据科学(Data Science),该领域需要结合先进的统计知识.定量分析能力和编程能力.涉及到编程,大家都会面临一个问题,有太多的编程语言可供选择,那么哪些编程语言适合数据科学领域呢?虽然没有正确答案,但想成为一名成功的数据科

一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习.深度学习.人工智能.统计学.物联网.运筹学和应用数学等相关领域的比较和重叠.Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型,你甚至可能会发现你自己原来也是某种数据科学家.和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术.当然,我们也已经开发出了自己的技术库,尤其是让我们可以以自动化的方

大规模机器学习:将数据科学引入生产系统架构的典型模式

在过去的几年间,数据科学这个概念已经被非常多的行业所接受.数据科学(源自于一个科学研究课题)最早是来自于一些试图去理解人类的智能并创造人工智能的科学家,但现在它已经被证明是完全可以带来真正的商业价值. 例如,我所在的公司:Zalando(欧洲最大的时尚品零售店).在这里,数据科学和其他工具一起被用来提供数据驱动的推荐.推荐本身作为后端服务,被提供给很多地方,包括产品页面.分类目录页面.通讯电邮以及重新定位目标客户等. 图1:图片来自Mikio Braun的演讲页 数据驱动产生推荐 实际上,有非常

拒绝跟风,看机器学习、数据科学、人工智能、深度学习、统计学等的区别

本文作者Vincent Granville通过阐明数据科学家各种各样的角色,以及数据科学与相关领域的不同以及交叉,比如机器学习.深度学习.AI.IoT.统计学.运筹学和应用数学.PS,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. 以下为译文 因为数据科学是个广义的学科,所以这里将从任何业务里都可能会遇到的数据科学家类型开始,通过这个部分或许你能发现自己隐藏的数据科学家潜质:)正如任何科学学科一样,

机器学习、数据科学、人工智能、深度学习、统计学等的区别

因为数据科学是个广义的学科,所以这里将从任何业务里都可能会遇到的数据科学家类型开始,通过这个部分或许你能发现自己隐藏的数据科学家潜质:)正如任何科学学科一样,数据科学家也可能向相关学科学习借鉴,尽管数据科学已经有自己的部分,尤其是自动处理超大规模非结构化数据的方式和算法,甚至不需要人为干涉,就可以做实时处理或者预测. 1. 数据科学家的各种类型 想要开始并且了解一些以前的观点,不妨参考2014年发布的文章" 9 types of data scientists"或者同年另一篇文章比较数