数据科学家用得最多的十种数据挖掘算法

图 1 :数据科学家使用度最高的 10 大算法

文末有全部算法的集合列表

每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长

与 2011 年关于数据分析/数据挖掘的调查相比,我们注意到最常用的方法仍然是回归、聚类、决策树/Rules 和可视化。相对来说最大的增长是由 (pct2016 /pct2011 – 1) 测定的以下算法:

  • Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
  • 文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
  • 可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
  • 时间序列/序列分析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
  • 异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
  • 集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
  • 支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
  • 回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%

最受欢迎算法在 2016 年的调查中有了新的上榜名单:

  • K-近邻,46%
  • 主成分分析,43%
  • 随机森林,38%
  • 优化,24%
  • 神经网络 – 深度学习,19%
  • 奇异值分解,16%

最大幅下降的有:

  • 关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 隆起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表显示了不同的算法类型的使用:监督算法、无监督算法、元算法,以及职业类型决定的对算法的使用。我们排除 NA(4.5%)和其他(3%)的职业类型。

职业类型% 投票者比例平均算法使用个数% 监督算法使用度% 无监督算法使用度% 元使用度%其他方法使用度

表 1:根据职业类型显示的不同算法使用度

我们注意到,几乎每个人都使用监督学习算法。

政府和产业业数据科学家比学生和学术研究人员使用更多不同类型的算法,而产业数据科学家们更倾向于使用元算法。

接下来,我们根据职业类型分析了前 10 名的算法+深度学习使用情况。

表 2:根据职业类型分类的 10 大算法+深度学习使用情况

为了更明显的看到差异,我们计算了具体职业分类相比于平均算法使用度的一个算法偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有的)

图 2:职业对算法的使用偏好

我们注意到,产业数据科学家们更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生普遍使用更少的算法,但多为文本挖掘和深度学习。

接下来,我们看看某一具体地域的参与度,表示整体的 KDnuggets 的用户:

  • 美国/加拿大,40%
  • 欧洲,32%
  • 亚洲,18%
  • 拉丁美洲,5%
  • 非洲/中东,3.4%
  • 澳洲/新西兰,2.2%

由于在 2011 年的调查中,我们将产业/政府分在了一组,而将学术研究/学生分在了第二组,并计算了算法对于业界/政府的亲切度:


  1. N(Alg,Ind_Gov) / N(Alg,Aca_Stu)  
  2. ------------------------------- - 1  
  3. N(Ind_Gov) / N(Aca_Stu) 

因此亲切度为 0 的算法表示它在产业/政府和学术研究人员或学生之间的使用情况对等。越高 IG 亲切度表示算法越被产业界普遍使用,反之越接近「学术」。

最「产业」的算法是:

  • 异常检测,1.61
  • 生存分析,1.39
  • 因子分析,0.83
  • 时间序列/序列,0.69
  • 关联规则,0.5

而 uplifting modeling 又是最「产业的算法」,令人惊讶的发现是,它的使用率极低 – 只有 3.1% – 是本次调查的算法中最低的。

最学术的算法是:

  • 常规神经网络,-0.35
  • 朴素贝叶斯,-0.35
  • 支持向量机,-0.24
  • 深度学习,-0.19
  • EM,-0.17

下图显示了所有的算法及其产业/学术亲切度。

图 3:KDnuggets 投票:最常被数据科学家使用的算法:产业界 VS 学术界

下表有关于算法的细节、两次调查中使用算法的比例、以及像上面解释的产业亲切度。

接下来的图表展示了算法的细节,按列

  • N:根据使用度排名
  • 算法:算法名称,
  • 类型:S – 监督,U – 无监督,M – 元,Z – 其他,
  • 在 2016 年调查中使用这种算法的调查者比例
  • 在 2011 年调查中使用这种算法的调查者比例
  • 变动(%2016 年/2011% – 1),
  • 产业亲切度(如上所述)

表 3:KDnuggets 2016 调查:数据科学家使用的算法

本文作者:佚名

来源:51CTO

时间: 2025-01-19 09:15:27

数据科学家用得最多的十种数据挖掘算法的相关文章

资源总结——七步学习数据挖掘与数据科学

想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指出的资源能让你成为一名数据科学家. 作者为Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家. 以下为7个步骤用于学习数据挖掘和数据科学.虽然有编号顺序,你也可以并行或以不同的顺序学习: 1 语音:学习R.Python以及SQL语音: 2 工具:了解如何使用数据挖掘和可视化工具: 3 教材:阅读介绍性的教科书,了解基础知识: 4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位: 5 数据:检查可用的数据

如何构建一个高效的数据科学部门

这篇文章在Hacker News转载后产生很热烈的讨论,主要是从工程师的角度来看问题,讨论了很多有关人员管理和团队分工等一些很现实的问题.不是所有人都同意文中的观点和解决方案,也有很多人写出了自己的经历来佐证作者的想法.争议主要在于ETL工程师的工作价值以及不同职责间的分工问题. "您的团队和贵公司数据科学家之间关系如何?"我在面试数据平台工程师时,这绝对是我听到的最多的一个问题.这是个好问题,提问者可以有效的衡量这个新职位的好坏.我很乐于回答这个问题.不过我宁愿这个问题不出现,因为面

《Python数据科学指南》——导读

前 言 如今,我们生活在一个万物互联的世界,每天都在产生海量数据,不可能依靠人力去分析产生的所有数据并做出决策.人类的决策越来越多地被计算机辅助决策所取代,这也得益于数据科学的发展.数据科学已经深入到我们互联世界中的每个角落,市场对那些十分了解数据科学算法并且有能力用这些算法进行编程的人才需求是不断增长的.数据科学是多领域交叉的,简单列举几个:数据挖掘.机器学习.统计学等.这对那些渴望成为数据科学家以及已经从事这一领域的人们在各方面都倍感压力.把算法当成黑盒子应用到决策系统里,可能会适得其反.面

在twitter搞数据科学是怎样一种体验?

2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: · 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoop MapReduce任务--译者注)编译的. · 组织结构上,数据科学家和产品经理.工程师的工作环环相嵌,合作之密切史无前例. 以上只是众多改变中的一小部分.拿我来说,我的研究领域最近从Growth延伸到PIE (Prod

在Twitter“玩”数据科学是怎样一种体验

◆ ◆ ◆ 引子  2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: 许多Twitter的非机器学习主导的核心产品中,机器学习的比重正在不断增加(例如"While you were away" 功能--Twitter把你下线时可能错过的头条推文推送到你的个人首页). 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoo

数据科学中最好的5个机器学习API

机器学习作为大数据的前沿无疑是让人生畏的,因为只有技术极客和数据科学领域的专家才能驾驭机器学习算法和技术,对于大部分企业和组织而言,过去这一直都是一个遥不可及的事情.但是现在这种情况正在发生改变,正如标准的API简化了应用程序的开发一样,机器学习API也降低了这一领域的门槛,让越来越多的人和企业能够借助技术底蕴深厚的公司所提供的API试水机器学习. 机器学习API隐藏了创建和部署机器学习模型的复杂性,让开发者能够专注于数据挖掘和用户体验.同时,将机器学习商业化成云服务也是当今的趋势,IBM.Mi

一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习.深度学习.人工智能.统计学.物联网.运筹学和应用数学等相关领域的比较和重叠.Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型,你甚至可能会发现你自己原来也是某种数据科学家.和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术.当然,我们也已经开发出了自己的技术库,尤其是让我们可以以自动化的方

一文总览数据科学全景:定律、算法、问题类型...

2016年,英国数学家,乐购俱乐部构架师Clive Humbly提出"数据是新能源"这样一个说法.他说: "数据是新能源.它拥有极高的价值,却需要经过提炼才能使用.就像石油一样,必须被转化为气体.塑料或者化学品等,才能发挥出其实际的作用: 因此,数据只有被分解和分析之后才具备价值." iPhone革命,移动经济的增长,为大数据技术的发展创造了一个完美的契机.在2012年,HBR(Harvard Bussiness Review)发表过一篇文章,将数据科学家推到了风口

数据科学家必备工具有哪些?

当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容.实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一.这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一. 在这一章中,我们会探索数据科学环境中常用的软件.不是所有在这里提到的软件都会在你的工作中用到,但了解它们会让你拥有更多选择.特别是我们会提到Hadoop套件的一些其他备选工具(例如Spark.Storm等),许多功