机器学习基础(七)Adaboost

Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称。说到 boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来来进行分类的方法,统称 为集成方法(ensemble method),类似于投资,“不把鸡蛋放在一个篮子”,虽然每个弱分类器分类的不那么 准确,但是如果把多个弱分类器组合起来可以得到相当不错的结果,另外要说的是集成方法还可以组合不同的 分类器,而Adaboost和boosting算法的每个弱分类器的类型都一样的。他们两个不同的地方是:boosting的每 个弱分类器组合起来的权重不一样,本节的Adaboost就是一个例子,而bagging的每个弱分类器的组合权重是 相等,代表的例子就是random forest。Random forest的每个弱分类器是决策树,输出的类别有多个决策树分 类的类别的众数决定。今天的主题是Adaboost,下面来看看Adaboost的工作原理:

既然Adaboost的每 个弱分类器的类型都一样,那么怎么组织安排每个分类器呢?如(图一)所示:

(图一)

(图一)是Adaboost的原理示意图,左边矩形表示数据集,中间表示根据特征阈值来做分 类,这样每一个弱分类器都类似于一个单节点的决策树,其实就是阈值判断而已,右边的三角形对每个弱分类 器赋予一个权重,最后根据每个弱分类器的加权组合来判断总体类别。要注意一下数据集从上到下三个矩形内 的直方图不一样,这表示每个样本的权重也发生了变化,样本权重的一开始初始化成相等的权重,然后根据弱 分类器的错误率来调整每个弱分类器的全总alpha,如(图一)中的三角形所示,alpha 的计算如(公式一)所 示:

(公式一)

从(公式一 )中也能感觉出来,弱分类器权重alpha和弱分类器分类错误率epsilon成反比,如果不能看出反比关系,分子 分母同时除以epsilon就可以了,而ln是单调函数。这很make sense,当然分类器的错误率越高,越不能器重它 ,它的权重就应该低。同样的道理,样本也要区分对待,样本的权重要用弱分类器权重来计算,其实也是间接 靠分类错误率,如(公式二)所示:

(公式二)

时间: 2024-09-10 22:39:22

机器学习基础(七)Adaboost的相关文章

机器学习实战(Machine Learning in Action)笔记--Chapter1:机器学习基础

Part1 分类 监督学习一般使用两种类型的目标变量:标称型(主要用于分类).数值型(主要用于回归). 非均衡分类问题 第1章 机器学习基础 专家系统 训练样本.特征.目标变量(分类问题中为类别) 训练数据和测试数据 知识表示 监督学习:分类.回归 无监督学习 将数据集合分成由类似的对象组成的多个类的过程被称为聚类 将寻找描述数据统计值的过程称之为密度估计 监督学习的用途:k-近邻算法.朴素贝叶斯算法.支持向量机.决策树.线性回归.局部加权线性回归.Ridge回归.Lasso最小回归系数估计 无

Bootstrap <基础七>按钮

原文:Bootstrap <基础七>按钮 任何带有 class .btn 的元素都会继承圆角灰色按钮的默认外观.但是 Bootstrap 提供了一些选项来定义按钮的样式,具体如下表所示: 以下样式可用于<a>, <button>, 或 <input> 元素上: 类 描述   .btn 为按钮添加基本样式   .btn-default 默认/标准按钮   .btn-primary 原始按钮样式(未被操作)   .btn-success 表示成功的动作   .b

《R语言机器学习:实用案例分析》——1.7节机器学习基础

1.7 机器学习基础 既然你已经回顾了关于R的内容,我们将讨论机器学习的基础:什么是机器学习,今天如何使用机器学习,以及机器学习中的主要领域.本节将对机器学习进行概述,为你进入下一章机器学习的深入研究做铺垫.1.7.1 机器学习--真正的含义是什么 由于机器学习是一个囊括和借鉴了计算机科学中多个领域的概念和技巧的一门学科,所以它还没有一个明确的教科书定义.在大学中,机器学习也作为一个学术课程进行教授.随着机器学习和数据科学在网上的教育视频.课程和培训形式被大众广泛接受,该学科在最近有了显著的发展

神经网络和机器学习基础入门分享

         最近在做知识图谱实体对齐和属性对齐中,简单用了下Word2vec谷歌开源代码.Word2vec是一个将单词表征成向量的形式,它可以把文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度.         Word2vec采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Continuous Skip-GramModel)两种模型,涉及到神经网络和深度学习的一些知识.故这周给学弟和

机器学习_基于adaboost和haar like特征的人脸识别

基于adaboost做人脸识别的一篇论文         PAUL VIOLA  的 Robust Real-Time Face Detection      Rapid object detection using a boosted cascade of simple features 其中谈到使用haar like特征,参考这篇论文        Rainer Lienhart and Jochen Maydt 的 An Extended Set of Haar-like Features

《面向机器智能的TensorFlow实践》TensorFlow与机器学习基础

本节书摘来自华章出版社<面向机器智能的TensorFlow实践>一书中的第1章,第节,作者山姆·亚伯拉罕(Sam Abrahams)丹尼亚尔·哈夫纳(Danijar Hafner)[美] 埃里克·厄威特(Erik Erwitt) 阿里尔·斯卡尔皮内里(Ariel Scarpinelli),更多章节内容可以访问"华章计算机"公众号查看. TensorFlow基础 3.1 数据流图简介 本节将脱离TensorFlow的语境,介绍一些数据流图的基础知识,内容包括节点.边和节点依赖

用超级玛丽理解机器学习基础

有关神经网络和机器学习的文章很多,因为这个主题在最近几年里非常受欢迎.该领域看起来似乎让人难以靠近,并且非常难以理解,许多人认为必须是数学家或统计学家才能掌握机器学习的相关概念.然而,机器学习和神经网络的基本概念不一定像人们想象的那样复杂. 本文的目的是通过一个简单的例子来解释机器学习工作原理的高层概念.希望这能为你继续阅读和学习相关知识带来更多的兴趣和信心. 增强学习 机器学习程序与常规程序的不同之处在于程序员没有在机器学习程序中明确地定义逻辑,而是创建了一个能够自己学习如何成功完成任务的程序

机器学习基础(五)支持向量机

做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前, SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如latent-SVM, structural-SVM等.这节先来看看SVM的理论吧,在(图一)中A图表示有两类的数据集,图B,C,D都提供了一 个线性分类器来对数据进行分类?但是哪个效果好一些? (图一) 可能对这个数据集来说,三个的分类器都一样足够好了吧,但是其实不然,这个只是训练 集,现实测试

机器学习基础(四)逻辑回归

从这节算是开始进入"正规"的机器学习了吧,之所以"正规"因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证.这整套的流程是机器学习必经环节.今天要学习的 话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning).逻辑回归一般用来 做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=kx+b,给定一堆数据点, 拟合出k和b的值就行了,下次给定X时,就