数据科学家最常用的十种算法和方法

最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法。

下面是调查结果,总调查人数是 844 人。

数据科学家最常用的Top 10种算法和方法,以及投票比例:

表1:数据科学家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

说明:这个投票的本意是找出数据科学家最常用的工具,但“工具”这个词含义不明确,所以为了简便我最初把这个表成为top 10“算法”。当然,正如有读者指出的,“统计学”或“可视化”以及其他几个都不是算法,更好的描述应该是“方法”。所以我把这个表更名为Top 10算法和方法。

投票者平均使用的算法/方法数是8.1中,比2011年的类似调查增加了很多。

在2011年的调查“数据科学/数据挖掘的常用算法”中,我们提到最常用的方法是回归、聚类、决策树/决策规则,以及可视化。两次调查中投票数增加最多的是:

提升方法,2016年票数占32.8%,2011年占23.5%,票数增加40%

文本挖掘,从2011年的27.7%到2016年的35.9%,票数增加30%

可视化,从2011年的38.3%到2016年的48.7%,票数增加27%

时间序列/序列分析,从2011年的29.6%到2016年的37.0%,票数增25%

异常/偏差检测,从2011年的16.4%到2016年的19.5%,票数增加 19%

集成方法,从2011年的28.3%到2016年的33.6%,票数增加19%

SVM,从2011年的28.6%到2016年的33.6%,票数增加18%

回归,从2011年的57.9%到2016年的67.1%,票数增加16%

2016年新增的回答有:

K-NN,占比46%

PCA,占比43%

随机森林,占比38%

优化,占比24%

神经网络 –深度学习,占比19%

奇异值分解,占比16%

投票数减少最多的有:

关联规则,从2011年的28.6%到2016年的15.3%,减少了47%

增量建模,从4.8%到3.1%,减少了36% (这个让人吃惊)

因素分析,从18.6%到14.2%,减少了24%

生存分析,从9.3%到7.9%,减少了15%

下面的表格表示不同算法类型的应用:监督、无监督、元,及其他,以及投票者职业类型的占比。在职业类型中,我们排除了“未回答”(4.5%)和“其他”(3%)。

  我们发现,几乎所有人都使用监督式学习算法。

政府和产业数据科学家比学生或学术研究人员使用更多不同类型的算法。

产业数据科学家更喜欢元算法。

接下来,我们分析了不同职业人士最常用的10中算法 深度学习:

为了让结果更清晰,我们计算了职业类型和平均算法使用的偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有)。

  图2:按职业类型分的算法使用偏差

我们发现,产业数据科学家更喜欢用回归、可视化、统计、随机森林和时间序列。政府/非营利机构用得更多的是可视化、PCA和时间序列。学术研究者更常用的是PCA和深度学习。学生普遍上使用的算法较少,常用的是文本挖掘和深度学习。

接下来我们分析了能代表 KDnuggets 整体用户的具体地区参与人数:

投票参与者的地区分布:

美国/加拿大,40%

欧洲,32%

亚洲,18%

拉丁美洲,5.0%

非洲/中东,3.4%

澳大利亚/新西兰,2.2%

在2011年的投票中,我们把产业/政府和学术研究者/学生分别合并成一个组,并用以下公式计算产业/政府的算法“亲和度”:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

因此,亲和度为0的算法表示它在产业/政府和学术研究者或学生中的使用情况一致。IG值越高,表示这个算法越“产业向”,越低,表示算法越“学术向”。

2011年的调查中,最“产业向的算法”是:

增量建模,2.01

异常检测,1.61

生存分析,1.39

因素分析,0.83

时间序列/序列,0.69

关联规则,0.5

在最新的调查中,增量建模(uplift modeling)是最“产业向的算法”,令人惊奇的发现是使用它的人非常少——只有3.1%,是这个调查中得票数最少的算法。

最“学术向的算法”是:

常规神经网络,-0.35

朴素贝叶斯,-0.35

支持向量机(SVM),-0.24

深度学习,-0.19

EM, -0.17

下面的图表列出了所有的算法和它们的产业/学术亲和度。

  图3:数据科学家最常用的算法:产业 vs 学术

下面的表格列出了所有算法的细节,%表示两次调查中该算法的得票数占比,以及比重的变化(%2016/%2011 -1)。

  表3:KDnuggets 2016调查:数据科学家使用的算法

N:按投票数的排序

Algorithm:算法名称

Type: S – 监督(Supervised), U – 无监督(Unsupervised), M – 元(Meta), Z – 其他

2016 % :2016年该算法的得票率

2011 % :2011年该算法的得票率

change (%2016 / %2011 – 1):得票率变化

Industry affinity:如上文解释。

本文转自d1net(转载)

时间: 2024-10-02 19:59:29

数据科学家最常用的十种算法和方法的相关文章

KDnuggets 官方调查:数据科学家最常用的十种算法

最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法. 哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的? 这是基于 844 个投票者的结果. 排名前十的算法以及他们的投票者的比例分布如下: 图 1 :数据科学家使用度最高的 10 大算法 每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长. 与 2011 年关于数据分析/数据挖掘的调查相比

KDnuggets调查|数据科学家最常用的10种算法

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法? 于是就有了以下基于844份答卷的结果. ◆ ◆ ◆ 排名前十的算法和它们在投票者中所占比例 图1:数据科学家最常用的10大算法,所有算法见文末表格   每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增

数据科学家最常用的10种算法

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法? 于是就有了以下基于844份答卷的结果. ◆ ◆ ◆ 排名前十的算法和它们在投票者中所占比例 图1:数据科学家最常用的10大算法,所有算法见文末表格 每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增长.

这一年来,数据科学家都用哪些算法?

在"数据为王"的今天,越来越多的人对数据科学产生了兴趣.数据科学家离不开算法的使用,那么,数据科学家最常用的算法,都是哪些呢? 最近,著名的资料探勘信息网站KDnuggets策划了十大算法调查,这次调查对数据科学家常用的算法进行排名,并发现最"产业"和最"学术"的算法,还对这些算法在过去5年间(2011~2016)的变化,做了一番详细的介绍. 这次调查结果,是基于844名受访者投票整理出来. KDnuggets总结出十大算法及其投票份额如下: 图

最新出炉——数据科学家最常使用的十大算法

本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍. 基于调查,KDnuggets总结出了数据科学家最常使用的十大算法,它们分别是: 1. Regression 回归算法 2. Clustering 聚类算法 3. Decision Trees/Rules 决策树 4. Visualization 可视化 5. k-Nearest Neighbor 邻近算法 6. PCA (Principal Component Ana

最新出炉 数据科学家最常使用的十大算法

导读:本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍. 基于调查,KDnuggets总结出了数据科学家最常使用的十大算法,它们分别是: 1. Regression 回归算法 2. Clustering 聚类算法 3. Decision Trees/Rules 决策树 4. Visualization 可视化 5. k-Nearest Neighbor 邻近算法 6. PCA (Principal Component

数据科学家和大数据技术人员工具包

数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独特的基本思

分辨真假数据科学家的20个问题及回答

[导语]本文分为两个部分,第一部分是quora上很火的一篇问答--[20个分辨真假数据科学家的问题]中赞赏数最高的回答,第二部分则是KDnuggets阅读量非常高的一篇文章[KDnuggets编辑们针对这20个问题给出的回答].前者由大数据文摘团队选稿翻译校对后,呈现在各位读者面前.后者授权转载自计算广告(Comp_Ad)译者白雪.龙星镖局,原载于KDnuggets.本次将分散于不同地址的相关资源整合推送,希望更有利于有兴趣读者的学习,别忘了[评论区]给我们留言你的体会.收获.以及建议喔! ◆

数据分析师的基本素养——论如何成为一名数据科学家 Part 2

更多深度文章,请关注: https://yq.aliyun.com/cloud 本文为<数据分析师的基本素养--论如何成为一名数据科学家>文章的第二部分,第一部分请点击这里. Pronojit Saha,数据发烧友 数据科学入门的自学之路 对于那些想要入门数据科学的新手,这里有一份大纲,或许能够为大家提供一些思路.(其内容摘自我的一篇博客:如何获得"基本技能集"-自主学习的方式).我的建议是从下面每项建议中逐一挑选一到两个资料或链接,掌握其中介绍的内容. 基本的先决条件: