C5.0算法学习

 

C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。

C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方法,选取有最大GainRatio的分割变量作为准则,避免ID3算法过度配适的问题。

C5.0算法则是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,又称为BoostingTrees,在软件上计算速度比较快,占用的内存资源较少。

决策树模型,也称规则推理模型。通过对训练样本的学习,建立分类规则;依据分类规则,实现对新样本的分类;属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量),属性变量(输入变量)。

决策树模型与一般统计分类模型的主要区别:决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的。

常见的算法有CHAID、CART、Quest和C5.0。对于每一个决策要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。

决策树很擅长处理非数值型数据,这与神经网络智能处理数值型数据比较而言,就免去了很多数据预处理工作。

C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能偶带来的最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能在被拆分为止。最后,重新缉拿眼最低层次的拆分,哪些对模型值没有显著贡献的样本子集被提出或者修剪。

C5.0优点:

C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健;

C5.0模型比一些其他类型的模型易于理解,模型退出的规则有非常直观的解释;

C5.0也提供强大技术以提高分类的精度。

C5.0算法

C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。

信息熵:信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验熵。

           信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,å P(ui)=1;

              信息量(单位是bit,对的底数取2):

                                     

        信息熵:先验不确定性:

                                 

•信息熵H(U)的性质

 

•H(U)=0时,表示只存在唯一的可能性,不存在不确定性

•如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大

       •P(ui)差别越小, H(U)就越大; P(ui) 差别大, H(U)就越小

         决策树中熵的应用:

         设S是一个样本集合,目标变量C有K个分类,freq(Ci,S)表示属于Ci类的样本数,|S|表示样本几何S的样本数。则几何S的信息熵定义为:

                                

             如果某属性变量T,有N个分类,则属性变量T引入后的条件熵定义为:

                                

             属性变量T带来的信息增益为:

                                  

C5.0算法示例:

该组样本的熵:

关于T1的条件熵为:

T1带来的信息增益为:

 

 

 

 

 

 

 

 

 

时间: 2024-10-28 09:12:50

C5.0算法学习的相关文章

网游玩家流失特征提取办法(基于C5.0算法和SPSS Modeler)

引言网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻都得利用数据作为驱动,然而过分的利用数据驱动业务则会陷入一些误区,进而会导致一些重大决策失误出现,数据终归是数据,有时候数据也会撒谎.在网游行业的数据挖掘方面,很多电信企业的数据挖掘方案是值得参考和利用的.比如电信客户流失的特征提取,客户细分,客户流失预警,消费分析,套餐或者礼包制定模型.今天要说的是

大三了,现在才从0开始学习java,有什么好书或秘诀教教小弟

问题描述 大三了,现在才从0开始学习java,有什么好书或秘诀教教小弟.现在才开始学,会不会晚了点? 解决方案 解决方案二:betterlatethannever.解决方案三:Goodgoodstudy,daydayup!解决方案四:<<Thinkinginjava>>解决方案五:你如果看<Thinkinginjava>你一定会后悔的我推荐耿祥义的<java2实用教程第三版>清华大学出版社他教的我java里面的例子很形象代码很规范解决方案六:上verycd下

《FLUENT 14.0超级学习手册》——1.2 计算流体力学(CFD)基础

1.2 计算流体力学(CFD)基础 FLUENT 14.0超级学习手册 计算流体动力学(Computational Fluid Dynamics,CFD)是近代流体力学.数值数学和计算机科学结合的产物,是一门具有强大生命力的边缘科学. 1.2.1 CFD概述 CFD以电子计算机为工具,应用各种离散化的数学方法,对流体力学的各类问题进行数值实验.计算机模拟和分析研究,以解决各种实际问题. 计算流体力学和相关的计算传热学.计算燃烧学的原理是用数值方法求解非线性联立的质量.能量.组分.动量和自定义的标

《FLUENT 14.0超级学习手册》——第2章 FLUENT软件介绍2.1 FLUENT软件特点简介

第2章 FLUENT软件介绍 FLUENT 14.0超级学习手册 CFD商业软件FLUENT是通用CFD软件包,用来模拟从不可压缩到高度可压缩范围内的复杂流动.由于采用了多种求解方法和多重网格加速收敛技术,因而FLUENT能达到最佳的收敛速度和求解精度.灵活的非结构化网格和基于解的自适应网格技术及成熟的物理模型,使FLUENT在转换与湍流.传热与相变.化学反应与燃烧.多相流.旋转机械.动/变形网格.噪音.材料加工.燃料电池等方面有广泛的应用. 学习目标: 学习FLUENT软件的主要特点: 了解F

bundle adjustment算法学习

  今天学习了稀疏的光束平差法,基于上一篇博文Levenberg–Marquardt算法学习,这里对学习内容做一个理论梳理.本次内容包括: BA简介 BA迭代步长的数学推导 稀疏BA迭代步长的算法求解过程 1.BA简介    摄像机在静态环境中移动,得到不同时刻拍摄的多幅图像.假设这些图像是同一刚性物体的投影,则可由图像特征对应关系估计出摄像机的运动参数.在计算机视觉中 ,这一过程称为运动分析或由运动重建物体结构(structure frommotion).    Bundle Adjustme

《FLUENT 14.0超级学习手册》——2.5 FLUENT 14.0的基本操作

2.5 FLUENT 14.0的基本操作 FLUENT 14.0超级学习手册 本节将介绍FLUENT 14.0的用户界面和一些基本操作.在本书中,若不作特殊说明,FLUENT均指FLUENT 14.0版本. 2.5.1 启动FLUENT主程序 在开始程序菜单中选择单独运行FLUENT主程序或者在ANSYS Workbench中运行FLUENT项目,弹出FLUENT Launcher对话框,如图2-12所示.在对话框中可以做如下选择. 二维或三维版本,在Dimension选项区中选择2D或3D 单

深入浅出:如何从0开始学习大数据挖掘分析?

最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议. 很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样.如果钻入复杂算法和技术开发,只能让你走火入魔,越走越费劲,并且效果不大.在公司实际工作中,最好的大数据挖掘工程师一定是最熟悉和理解业务的人.对于大数据挖掘的学习心得,作者认为学

Levenberg–Marquardt算法学习

  本次是对Levenberg–Marquardt的学习总结,是为之后看懂sparse bundle ajdustment打基础.这篇笔记包含如下内容: 回顾高斯牛顿算法,引入LM算法 惩罚因子的计算(迭代步子的计算) 完整的算法流程及代码样例 1.      回顾高斯牛顿,引入LM算法  根据之前的博文:Gauss-Newton算法学习   假设我们研究如下形式的非线性最小二乘问题:   r(x)为某个问题的残差residual,是关于x的非线性函数.我们知道高斯牛顿法的迭代公式:   Lev

《ANSYS CFX 14.0超级学习手册》——1.4 CFD软件结构及常用的CFD软件

1.4 CFD软件结构及常用的CFD软件 ANSYS CFX 14.0超级学习手册CFD商用软件往往将复杂的CFD过程继承,通过一定的接口,让用户快速地输入问题的有关参数. 1.4.1 CFD软件结构所有的CFD商用软件均包括三个基本环节:前处理.求解和后处理,与之对应的程序模块常简称为前处理器.求解器和后处理器. 1.前处理器前处理器用于完成前处理的工作.前处理环节是向CFD软件输入所求问题的相关数据,该过程一般是借助与求解器相对应的对话框等图形界面完成的.在前处理阶段用户进行以下工作. (1