ID3决策树与C4.5决策树分类算法简述

Let’s begin with ID3 decision tree:
The ID3 algorithm tries to get the most information gain when grow the decision trees. The information gain is defined as

Gain(A)=I(s1,s2,…,sm)−E(A)

where I is the information entropy of a given sample setting,

I(s1,s2,…,sm)=−∑i=1mpilog2(pi)

E(A) is the information entropy of the subset classified by attribute A=(a1,a2,…,av),

E(A)=∑j=1vsij+s2j+⋯+smjsI(s1,s2,…,sm)

Moreover, pi is the probability of an sample belonging to class Ci, which can be estimated as pi=si|S| and pij is the probability an sample belonging to class Ci with attribute A=aj, i.e. pij+sij|Sj|.
ID3 algorithm can be simplified as follows:

For every attribute A, we calculate its information gain E(A).
Pick up the attribute who is of the largest E(A) as the root node or internal node.
Get rid of the grown attribute A, and for every value aj of attribute A, calculate the next node to be grown.
Keep steps 1~3 until each subset has only one label/class Ci.

ID3 algorithm is an old machine learning algorithm created in 1979 based on information entropy, however, there are several problems of it:

ID3 prefers the attribute with more values, though it turns out not to be the optimal one.
ID3 has to calculate the information entropy of every value of every attribute. Hence it always leads to many levels and branches with very little probability, as a result of which it tends to overfit classification in the test set.

C4.5 decision tree
C4,.5 algorithm makes use of Grain Ratio instead of Gain to select attributes.

GainRatio(S,A)=Gain(S,A)SplitInfo(S,A)

where Gain(S,A) is nothing more than Gain(A) in ID3, and SplitInfo(S,A) is defined as

SplitInfo(S,A)=−∑i=1c|si||S|log2(|S||si|)

in which si to sc are the sample sets divided by c values of attribute A.

时间： 2024-11-01 19:38:42

ID3决策树与C4.5决策树分类算法简述的相关文章

Logistic回归与最小二乘概率分类算法简述与示例

Logistic Regression & Least Square Probability Classification 1. Logistic Regression Likelihood function, as interpreted by wikipedia: https://en.wikipedia.org/wiki/Likelihood_function plays one of the key roles in statistic inference, especially met

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

分类算法总结

决策树分类算法决策树归纳是经典的分类算法. 它采用自顶向下递归的各个击破方式构造决策树. 树的每一个结点上使用信息增益度量选择测试属性. 可以从生成的决策树中提取规则. KNN法(K-Nearest Neighbor): KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法. 该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 该方法在定类决策上只依据最邻近的一个

分类算法：决策树（C4.5）

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 用信息增益率来选择属性.ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率. 在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好. 对非离散数据也能处理. 能够

分类算法：决策树（ID3）

决策树是以实例为基础的归纳学习算法. 它从一组无次序.无规则的元组中推理出决策树表示形式的分类规则.它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类.从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则. 一棵决策树由以下3类结点构成: 根结点内部结点(决策结点) 叶结点其中,根结点和内部结点都对应着我们要进行分类的属性集中的一个属性,而叶结点是分类中的类标签的集合.如果一棵决策树构建起来,其

分类算法之决策树(Decision tree)

3.1.摘要在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法.这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断.在这一篇文章中,将讨论另一种被广泛使用的分类算法--决策树(decision tree).相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用. 3.2.决策树引导通俗来说,决策树分类的思想类似于找对象.现想象一个女孩的母亲要给这个女孩介绍男朋友,

机器学习（二）--- 分类算法详解

感觉狼厂有些把机器学习和数据挖掘神话了,机器学习.数据挖掘的能力其实是有边界的.机器学习.数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路.可是相比Java和C++语言开发来说,机器学习/数据挖掘确实是新一些老人占的坑少一些,而且可以经常接触一些新的东西.还是赶紧再次抓住机会集中的再总结一下吧,不能再拖拖拉拉了. 其实数据挖掘的主要任务是分类.聚类.关联分析.预测.时

如何实现基于C4.5的Adaboost算法

问题描述如何实现基于C4.5的Adaboost算法现有的Adaboost算法只能对二类分类,而基于决策树的集成如何更新权重解决方案参考:http://www.docin.com/p-595686917.html

数据挖掘系列（7）分类算法评价

一.引言分类算法有很多,不同分分类算法又用很多不同的变种.不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法. 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好.比如某个地区某天地震的预测,假设我们有一堆的特征作为地震分类的属性,类别只有两个:0:不发生地震 .1:发生地震.一个不加思考的分类器

猜你喜欢

两个高效的ASP分页函数

两个高效的ASP分页函数(统计记录数,分页提取记录) <% ' /*智能返回分页SQL语句*/ ' /// <summary> ' /// 功能:智能返回分页SQL ...

解决SQL SERVER 2005无法远程连接的问题

server|解决|问题问题使用SQL Server Management Studio无法连接远程服务器,提示以下错误: 使用telnet 连接1433端口,报告连接失败,应该是网管封了1433 ...

高性能的MySQL（6）查询慢与重构查询

只有好的库表结构.合理的索引还不够,我们还需要合理的设计查询,齐头并进,一个不少才能充分发挥MySQL的优势. 一.查询为什么会慢? 每一个查询由一系列的子任务组成,每个子任务都会消耗一定的时间.这个 ...

新一代智能光网络的技术特点

新一代智能光网络作为未来传输网发展的方向已经被业界所公认.作为有着十年发展历史的CIENA公司,在这一领域有着许多独特的研究成果和领先的技术.他们在新一代智能光网络的组成和技术方面已经有比较成熟的思路 ...

VC精华教程：MFC入门

·VC精华教程:MFC入门系列(一) ·VC精华教程:MFC入门系列(二) ·VC精华教程:MFC入门系列(三) ·VC精华教程:MFC入门系列(四) ·VC精华教程:MFC入门系列(五) ·VC精华 ...

基于Delphi的组件设计之简单实例

接下来要动手来做一个组件了,我想了一个计数器组件,功能方面是比较简单的,但这不是本章的重点,这一章的重点是说明一个组件的制作全过程.在其中可以学到很多组件制作的技巧,当然这些也是我从书上学得的. 这是 ...

ASP.NET 2.0数据教程之二十七:创建自定义排序用户界面

返回"ASP.NET 2.0数据教程目录" 显示大量已经按类别(不是很多)排序的数据但没有类别分界线,用户很难找到所需要的类别.例如,数据库中只有9个类别(8个不同的类别和1个n ...

Java Hibernate深度探险

一)Hibernate意义在一个真正的OOAD中,我们的设计首先是做UML建摸,最终将一个系统涉及所有对象(这个东西不是东西那么简单)用类图来体现一个完整的设计,我们最后可能得到这几种类:控制业务逻 ...

采用JSI封装、集成第三方类库

Java的成功,离不开它那个庞大的类库,不单是sun的类库,很多细节的实现都取自第三方(如xml解析采用Apache的实现). JSI暂时不算公共API,但是我们可以集成其他成熟的类库,同时隔离他们的 ...

旋风无限试用极速下载功能

试用QQ旋风无限试用修改器可以轻轻松松的让你破解qq旋风极速下载,让你的下载速度得到飞跃一般的提升!即便是很难下动的BT种子或者电驴资源也能获得流畅的下载体验. 首先我们确保要安装有QQ旋风,然后下载 ...

阿里旺旺2015怎么截图

1.点击旺旺对话框上"屏幕截图"按钮的下拉菜单,选中"截图时隐藏当前窗口". 再点击"屏幕截图"图标. 2.用鼠标选定整个消息管理器(包 ...

XP系统如何新建administrator管理员权限账户

知识点分析: 对于Windows XP系统,有很多种创建用户账户的操作方法.其中包括:使用CMD命令行的net命令进行,也可以使用控制面板的图形界面进行,还可以使用计算机管理控制台中的" ...

【设计模式】动态代理Proxy_02

我们继续上一次的动态代理探讨. 上一篇我们说道,所以我们要实现一种"通用"代理,可以对任意对象代理. 那么怎么实现呢? 我们规定产生代理的时候,被代理的类一定要实现一个接口.这样我 ...

rman备份的归档日志恢复不成功，求指教

问题描述 rman备份的归档日志恢复不成功,求指教用的增量备份策略其中归档日志备份如下: backup as compressed backupset archivelog all format ' ...

android-不能在relative布局中顶部和底部设置一个黑色条

问题描述不能在relative布局中顶部和底部设置一个黑色条这是我设置的代码: <RelativeLayout android:id="@+id/layout" andr ...

改善C#程序的建议1：非用ICloneable不可的理由

原文:改善C#程序的建议1:非用ICloneable不可的理由好吧,我承认,这是一个反标题,实际的情况是:我找不到一个非用ICloneable不可的理由.事实上,接口ICloneable还会带来误解 ...

Android 高仿微信6.0主界面带你玩转切换图标变色

目录(?)[+] 转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/41087219,本文出自:[张鸿洋的博客] 1.概述学习And ...

javaee-javaEE小白，hibernate工程运行时出错

问题描述 javaEE小白,hibernate工程运行时出错想要实现一个学生教务管理系统,首先提供一个登陆页面,输入账号与密码,跳转到登录成功界面,输入账号密码后点击登录出错解决方案你在配置文件 ...

加密-API请求所有参数按照字段名的ascii码从小到大排序后

问题描述 API请求所有参数按照字段名的ascii码从小到大排序后 URL:http://api.pcaexpress.com.au/tracking 请求类型:POST 请求参数: 参数类型 a ...

外媒：含富士康固件的安卓设备或藏秘密“后门”

最新报道称,包含富士康固件的某些安卓设备可能会因OS 引导装载程序内的调试功能遭受攻击.该功能是一个"后门",允许入侵者绕过验证程序通过USB访问脆弱的手机.该后门名为" ...

前台文件大小控制，如何实现(ajaxfileupload)

问题描述前台文件大小控制,如何实现(ajaxfileupload) //文件大小控制 jQuery.validator.addMethod("fileSizeCheck", fu ...

“极虎”病毒虎年发威金山国内首家推解决方案

[51CTO.com 综合消息]2010年2月8日,金山云安全监测中心发布紧急病毒预警,称"极虎"木马下载器已经全面爆发,仅2月7日一天,就有100390台电脑感染该病毒,截止到目 ...

c语言-C语言函数间用指针调用数值的问题

问题描述 C语言函数间用指针调用数值的问题函数原型是这样的 void f(int * u): main里有这么一句 f(&x); 相当于是把变量x的地址传递给f(),没错吧,那问题来了,被赋 ...

以实例全面讲解PHP中多进程编程的相关函数的使用_php实例

PHP有一组进程控制函数(编译时需要–enable-pcntl与posix扩展),使得php能实现跟c一样的创建子进程.使用exec函数执行程序.处理信号等功能. <?php h ...

ORACLE出现错误1033和错误ORA-00600的解决方法_oracle

在非法关机以后,Oracle数据库经常会出现这个错误: EXP-00056:ORACLE错误1033出现 ORA-01033:ORACLE initialization or shutdown in ...

谁有c# +　MVC + SQLServer项目

问题描述谁有c#+ MVC+SQLServer的项目啊(最好是电子商务网站的),求共享啊. 解决方案解决方案二:这么懒,,去网上找吧解决方案三:51aspx解决方案四:51aspx上有--mvc官 ...

百度极速智能搜索上线搜索进入“先知”时代

中介交易 SEO诊断淘宝客云主机技术大厅近期百度搜索页面开始改版升级,新首页比之前更简洁,更轻盈灵动,但大体风格还是沿袭着百度一贯的风格.不一样的地方是,搜索速度更快,搜索结果随着输入字符的变 ...

论程序媛的自我修养（男程序员勿入）

虽然说现在<嘀嗒嘀嗒>的文章写得依然一般,但是还是积聚了很多可爱而善良的读者,所以每篇文章阅读量什么的对于一个新人来说已经是出乎意料的高了.因着我写公众号是池哥(就是 MacTalk 的作 ...

域模型之二，主要概念

这篇文章是一系列文章的第二篇. 如果还没有阅读过第一篇请从这里开始. 另在一月八日做了小改动, 增加了域语言(Ubiqitous Language)的定义. 这篇描述可能比较枯燥的一篇. 不过这篇可 ...

国产扎堆合资静观 “云电视”让人有点晕

"云电视"又杀到了,从8月中旬到8月底的短短半个月内,海尔.海信.创维.康佳.长虹.TCL这6家国产彩电巨头,相继推出了自己旗下的"云电视".同一件新产品,被不 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.