数据挖掘系列(7)分类算法评价

一、引言

分类算法有很多,不同分分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的 数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一 个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。

正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如某 个地区某天地震的预测,假设我们有一堆的特征作为地震分类的属性,类别只有两个:0:不发生地震 、1:发生地震。一个不加思考的分类器,对每一个测试用例都将类别划分为0,那那么它就可能达到 99%的正确率,但真的地震来临时,这个分类器毫无察觉,这个人类带来的损失是巨大的。为什么99% 的正确率的分类器却不是我们想要的,因为这里数据分布不均衡,类别1的数据太少,完全错分类别1 依然可以达到很高的正确率却忽视了我们关注的东西。接下来详细介绍一下分类算法的评价指标。

二、评价指标

1、几个常用的术语

这里首先介绍几个常见的模型评价术语,现在假设我们的分类目标只有两类,计为正例(positive )和负例(negtive)分别是:

1)True positives(TP):  被正确地划分为正例的个数,即实际为正例且被分类器划分为正 例的实例数(样本数);

2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实 例数;

3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实 例数;

4)True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实 例数。  

上图是这四个术语的混淆矩阵,我只知道FP叫伪阳率,其他的怎么称呼就不详了。注意P=TP+FN表 示实际为正例的样本个数,我曾经误以为实际为正例的样本数应该为TP+FP,这里只要记住True、 False描述的是分类器是否判断正确,Positive、Negative是分类器的分类结果。如果正例计为1、负 例计为-1,即positive=1、negtive=-1,用1表示True,-1表示False,那么实际的类标=TF*PN,TF为 true或false,PN为positive或negtive。例如True positives(TP)的实际类标=1*1=1为正例,False positives(FP)的实际类标=(-1)*1=-1为负例,False negatives(FN)的实际类标=(-1)*(-1)=1 为正例,True negatives(TN)的实际类标=1*(-1)=-1为负例。

2、评价指标

1)正确率(accuracy)

正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的 样本数除以所有的样本数,通常来说,正确率越高,分类器越好;

2)错误率(error rate)

错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例 来说,分对与分错是互斥事件,所以accuracy =1 -  error rate;

3)灵敏度(sensitive)

sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;

时间: 2024-10-27 11:07:15

数据挖掘系列(7)分类算法评价的相关文章

一小时了解数据挖掘②:分类算法的应用和成熟案例解析

接上篇:一小时了解数据挖掘①:解析常见的大数据应用案例 分类算法的应用 本节将为大家介绍数据挖掘中的分类算法在一些行业中的代表性应用.我们将算法应用分为表述问题和解决过程两个阶段,表述问题即需要运用数据挖掘能够理解和处理的语言来阐述业务问题,最重要的是能够用正确且符合实际的方式把业务问题转化成数据挖掘问题,这往往决定了后续工作是否能有效的展开,尝试解决一个不符合实际的业务问题往往会使得数据挖掘的工作陷入数据的海洋中,既费时费力又得不到想要的结果.而解决过程,顾名思义就是将表述清楚的问题通过数据挖

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

数据挖掘-AdditiveRegression 分类方法与其他分类算法比优点有哪些?

问题描述 AdditiveRegression 分类方法与其他分类算法比优点有哪些? 现在大多数数据集分类最后都是 yes or no 不是numeric 类型的就不能用AdditiveRegression方法分类 那我如何对比它与C4.5等分类方法的性能呢? 解决方案 朴素贝叶斯分类算法分类算法简介

数据挖掘十大经典算法(详解)

数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:  1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足:  2) 在树构造过程中进行剪枝:  3) 能够完成对连续属性的离散化处理:  4) 能够对不完整数据进行处理.  C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据

数据挖掘十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.  不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响. 1.C4.5 

《数据挖掘:实用案例分析》——第2章 数据挖掘的应用分类 2.1 分类与回归

第2章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及.如在销售数据中发掘顾客的消费习惯,并可从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例:利用数据挖掘分析顾客群的消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的:制造业对数据挖掘的需求多运用在品质控管方面,从制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率.

数据挖掘十大经典算法——PageRank

数据挖掘十大经典算法(6) PageRank PageRank,网页排名,又称网页级别.Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里•佩奇(Larry Page)之姓来命名.Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一.Google的创始人拉里•佩奇和谢尔盖•布林于1998年在斯坦福大学发明了这项技术. PageRank通过网络浩瀚的超链接关系来

数据挖掘十大经典算法——CART

数据挖掘十大经典算法(10) CART 分类回归树(CART,Classification And Regression Tree)也属于一种决策树, 分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1. 决策树生长的核心是确定决策树的分枝准则. 1. 如何从众多的属性变量中选择一个当前的最佳分支变量: 也就是选择能使异质性下降最快的变量. 异质性的度量:GINI.TWOING.least squared deviation. 前两种主要针对分

数据挖掘十大经典算法——kNN

数据挖掘十大经典算法(8) kNN 1.K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空 间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 2.KNN算法中,所选择的邻居都是已经正确分类的对象.该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别. KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量