KDnuggets调查|数据科学家最常用的10种算法

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法，在大多数学术和产业界，都有惊人发现哦！

根据Gregory Piatetsky, KDnuggets，最新的调查问题是：在最近的12个月中，你在实际数据科学相关应用中用到了那些模型/算法？

于是就有了以下基于844份答卷的结果。

◆ ◆ ◆

排名前十的算法和它们在投票者中所占比例

图1：数据科学家最常用的10大算法，所有算法见文末表格

每个受访者平均用到了8.1种算法，这相比于 2011 的相似调查显示的结果有了巨大的增长。

相比2011年对数据分析算法的调查，我们注意到最常用的方法仍然是回归，聚类，决策树/规则以及可视化。比例增幅最大的是（增幅=%2016/%2011 -1）：

Boosting算法，提升了40%。由2011年的23.5%提升倒2016年的40%
文本挖掘（Text Mining），提升了30%。从27.7%提升到35.9%
可视化（Visualization），提升了27%。从38.3%提升到48.7%
时间序列/序列分析（Time series/Sequence analysis），提升了25%。从29.6%提升到37.0%
异常检测（Anomaly/Deviation detection），提升了19%，从16.4%提升到19.5%
组合方法（Ensemble methods），提升了19%，从28.3%提升到33.6%
支持向量机（SVM），提升了18%，从28.6%提升到33.6%
回归（Regression），提升了16%，从57.9%提升到67.1%

◆ ◆ ◆

2016年新秀中最为流行的是

K-最近邻法（K-nearestneighbors）, 46%
主成分分析（PCA）, 43%
随机森林（Random Forests）, 38%
优化（Optimization）, 24%
神经网络-深度学习（Neural networks - Deep Learning）, 19%
奇异值分解（Singular ValueDecomposition）, 16%

◆ ◆ ◆

降幅最大的是

关联规则（Associationrules）,下降了47%，从28.6%降为15.3%
Uplift modeling,下降了36%，从4.8% 降为3.1%(出人意料的低，因为有很多相关文献发表)
因子分析（Factor Analysis）,下降了24%，从18.6%降为14.2%
存活分析（SurvivalAnalysis）,下降了15%，从9.3%将为7.9%

下面的表格显示了不同的算法类型的使用场所：监督算法，无监督算法，元算法和其它算法。应用类型未知（NA，4.5%）或者其它职业类型（3%）的不包括在内。

表1：不同职业类型的算法使用

我们注意到，几乎所有的人都在使用监督学习算法。政府和产业界的数据科学家们使用的算法类型比学生和科学界要多。产业数据科学家们更倾向于使用元算法。

◆ ◆ ◆

不同职业类型最常用的10大算法+深度学习情况

接下来，我们分析了不同职业类型最常用的10大算法+深度学习情况

表2: 不同职业类型的10大算法+深度学习

为了更清楚地展示这些差异，我们用一个公式来计算不同职业类型的算法使用率偏倚：

偏倚=某种职业类型的算法使用率/所有职业类型的算法使用率-1

图2：不同场所的算法使用率偏倚

我们注意到，产业数据科学家们更倾向于用回归，可视化，统计，随机森林和时间序列。政府/非盈利组织则更倾向于使用可视化，主成分分析和时间序列。学术界的研究人员们更多的用到主成分分析和深度学习。学生们普遍使用的算法较少，但多用到文本挖掘和深度学习。

接下来，我们看看某一具体地域的参与度，表示整体的KDnuggets用户。

参与调查人员的地区分布：

美国/加拿大, 40%
欧洲, 32%
亚洲, 18%
拉丁美洲, 5.0%
非洲/中东, 3.4%
澳大利亚/新西兰, 2.2%

在2011年的调查中，我们把产业和政府两个行业的被调查者合为一组，把学术研究者和学生合为一组，然后计算行业政府组的算法使用亲切度：

（行业政府组的算法使用率/学术学生组的算法使用率）/（行业政府组的人数/学术学生组的人数）-1

因此，亲切度为0的算法表示它在产业/政府组和学术学生组使用率相同。越高IG亲切度说明该算法越偏向于产业，结果越小则算法越偏向于学术。

最偏向于“产业算法”是：

uplifting modelling, 2.01
异常检测, 1.61
存活分析, 1.39
因子分析, 0.83
时间序列/序列分析, 0.69
关联规则, 0.5

尽管uplift modeling再次成为最偏向于“行业算法”，令人吃惊的却是它使用率极低，只有3.1%，是整个调查中比例最低的。

最偏向于“学术算法”是：

神经网络, -0.35
朴素贝叶斯, -0.35
支持向量机, -0.24
深度学习, -0.19
最大期望, -0.17

下图显示了所有算法及其产业/学术亲切度。

图3：KDnuggets调研：数据科学家使用最多的算法：产业与学术领域对比

下表是所有算法调研结果的细节，分别是2016年受访人群使用比例，2011年使用比例，变化（2016年比例/2011年比例-1）以及上文提及的产业亲切度。

表3：KDnuggets2016调研：数据科学家使用的算法

下方的表格是所有算法的调研结果细节，不同列依次代表的是：

排名: 根据使用比例的排名
算法：算法名称
类型: S – 有监督, U – 无监督, M – 元(meta), Z – 其他方法,
在2016年调查中使用该算法的人数比例
在2016年调查中使用该算法的人数比例
变化：(%2016 / %2011 -1),
产业亲切度见上文的解释.

表4：KDnuggets 2016 调研：数据科学家使用的算法

原文发布时间为：2016-09-18

时间： 2024-10-03 17:04:48

KDnuggets调查|数据科学家最常用的10种算法的相关文章

数据科学家最常用的10种算法

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法? 于是就有了以下基于844份答卷的结果. ◆ ◆ ◆ 排名前十的算法和它们在投票者中所占比例图1:数据科学家最常用的10大算法,所有算法见文末表格每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增长.

KDnuggets 官方调查：数据科学家最常用的十种算法

最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法. 哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的? 这是基于 844 个投票者的结果. 排名前十的算法以及他们的投票者的比例分布如下: 图 1 :数据科学家使用度最高的 10 大算法每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长. 与 2011 年关于数据分析/数据挖掘的调查相比

数据科学家最常用的十种算法和方法

最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法. 下面是调查结果,总调查人数是 844 人. 数据科学家最常用的Top 10种算法和方法,以及投票比例: 表1:数据科学家最常用的Top 10算法&方法.所有算法和方法的列表在文末. 说明:这个投票的本意是找出数据科学家最常用的工具,但"工具"这个词含义不明确,所以为了简便我最初把这个表成为top 10"算法".当然,正如有读者指出的,&qu

常用的10种CSS BUG解决方法与技巧

最常用的10种CSS BUG解决方法与技巧-浏览器兼容教程 CSS bug是布局中最头疼的问题.我们需要兼顾各种浏览器,以期待获得一致的效果. 非常遗憾的是各厂商之间的竞争导致很多问题的存在.而IE6与IE7在很多问题上也存在着很大的差别. 轻松的解决CSS bug是我们必须掌握的技能.现在整理出最常用的12种CSS BUG解决方法以及CSS BUG类的小技巧. 希望对您的学习.工作有所帮助,如果您依然有疑问, 一. 针对浏览器的选择器这些选择器在你需要针对某款浏览器进行css设计时将非常有用

数据科学家需要掌握的10项统计技术，快来测一测吧

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 无论你是不是一名数据科学家,都不能忽视数据的重要性.数据科学家的职责就是分析.组织并利用这些数据.随着机器学习技术的广泛应用,深度学习吸引着大量的研究人员和工程师,数据科学家也将继续站在技术革命的浪潮之巅. 虽然编程能力对于数据科学家而言非常重要,但是数据科学家不完全是软件工程师,他应该是编程.统计和批判性思维三者的结合体.而许多软件工程师通过机器学习框架转型为数据科学家时,没有深刻地思考并理解这些框架背后的

提升数据中心电力系统可用性的10种方法

数据中心采用一定的战略,以确保能够获得清洁.持续的电力资源对于其IT系统而言是必不可少的. 曾几何时, IT仅仅只是另一项重要的商业资源.但到了今天,IT已然成为了许多公司的业务.没有了IT,大多数企业组织及哦股将无法为他们的客户服务;与合作伙伴展开合作,开发新的产品或执行其他基本的业务功能. 其结果是,数据中心的可用性已经成为确保企业组织机构的市场竞争力和盈利能力的一个重要的先决条件.然而,尽管企业组织机构已经尽了自己最大的努力来确保数据中心系统的可用性,但他们仍然非常容易受到各种各样的威胁.

主宰这个世界的10种算法，你了解其中的几种？

class="post_content" itemprop="articleBody"> Reddit 有篇帖子介绍了算法对我们现在生活的重要性,以及哪些算法对现代文明所做贡献最大.如果对算法有所了解,读这篇文章时你可能会问"作者知道算法为何物吗?",或是" Facebook 的'信息流'(News Feed)算是一种算法吗?",如果"信息流"是算法,那就可以把所有事物都归结为一种算法.才疏学浅,结合

数据科学家必须知道的 10 个深度学习架构

近年来,深度学习的发展势头迅猛,要跟上深度学习的进步速度变得越来越困难了.几乎每一天都有关于深度学习的创新,而大部分的深度学习创新都隐藏在那些发表于ArXiv和Spinger等研究论文中. 本文介绍了部分近期深度学习的进展和创新,以及Keras库中的执行代码,本文还提供了原论文的链接. 简洁起见,本文中只介绍了计算机视觉领域内比较成功的深度学习架构. 另外,文章基于已经掌握了神经网络的知识,并且对Keras已经相当熟悉了的基础.如果你对这些话题还不太了解,强烈建议先阅读以下文章: <Fundam

常用的10种linux系统介绍

一 Mandriva Mandriva原名Mandrake,最早由Gaël Duval创建并在1998年7月发布.记得前两年国内刚开始普及Linux时,Mandrake非常流行.说起Mandrake的历史,其实最早Mandrake的开发者是基于Redhat进行开发的.Redhat默认采用GNOME桌面系统,而Mandrake将之改为KDE.而由于当时的Linux普遍比较难安装,不适合第一次接触Linux的新手,所以Mandrake还简化了安装系统.我想这也是当时Mandrake在国内如此