集成学习方法



集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀”,非常万能且有效,在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单,集合多个模型的能力,达到“三个臭皮匠,赛过诸葛亮”的效果。集成学习中概念是很容易理解的,但是好像没有同一的术语,很多书本上写得也不一样,越看越模糊。这里我把集成学习分为两个大类,第一大类称为模型融合,与台大机器学习技法课上的blending概念相似,模型融合其实是个再学习的过程。第一步是训练出多个不同的强学习器,然后考虑如何将这多个学习器组合起来,更进一步提高性能。第二大类称为机器学习元算法,这类算法本身就是多模型组合的结果,只是元算法中的基算法(base_algorithm一般会比较弱),称为弱模型的组合,例如RF、GDBT。

一、模型融合

实际中,我们总可以根据实际问题,训练出多个功能强大学习器,为了进一步提高学习器的能力,可以尝试将这些学习组合起来,这个过程就是模型融合。一般来说模型能在一定程度上提高性能,有时使模型的预测能力更加强大,有时增加模型的泛化能力,显而易见的坏处是多模型的学习加上再学习的过程会增加计算的代价。模型融合在竞赛中十分常见,屡试不爽,融合方法恰当,一般能提高成绩。

1.1 常用的获得不同模型的方法

由于不同的训练模型得到不同的模型,例如处理分类的LR、SVM、RF等

由于同一训练模型调节不同参数获得不同的模型,例如GDBT中迭代次数,每个树的复杂度等

有些算法本身就有一定的随机性,如PLA

由于训练数据不同得到不同的模型,如交叉验证、随机抽样

上面这些生成不同模型可以组合生成更多不同的模型,比较常用的是最前面的两个

1.2 模型融合的方法

通过验证(validation)的方式,从第一步中训练出的多个模型中挑选最佳的模型,作为最终的模型。这种方式必须要验证,不同使Ein最小,否则很容易过拟合。

统一融合(Uniform blending),分类时使用一人一票的投票方式,回归时使用多个模型的平均值。这种方式的优点是一般泛化能力会得到加强,但是只能保证比那些模型中最差的模型要好,不能保证能得到比那些不同模型中的最好的模型要好

线性融合(Linear blending),二次学习,使用线性模型将第一步中学习到的学习器组合起来,用得好可以提高模型性能,但是要注意有过拟合的风险。

堆融合(Any blending、stacking),任何其它非线性模型将那些学习器组合起来,有过拟合的风险,注意验证。

模型融合在实际中十分常见,下面是台大在2011KDDCup获得冠军时使用的模型融合方法,先用了any blending (stacking)处于领先群的位置,最后的linear blend使得台大获得冠军。

二、机器学习元算法

机器学习元算法分为两类:Averaging methods 和 Boosting methods

Averaging methods 核心是引入随机(对样本、特征属性随机取样)学习产生多个独立的模型,然后平均所有模型的预测值。一般而言,这种方法,会减小方差(variance),不太会过拟合。主要包括bagging、RF。

Boosting methods 逐步加强方法,该方法集合学习多个模型,提高模型的准确率。不同的是,它是基于前面模型的训练结果(误差),生成新的模型,从而减小偏差(bias)。一般而言,这种方法会比上者的准确率高一点,但是也不是绝对的。它的缺点是有过拟合的风险,另外,由于它每个模型是“序列化”(有前后关系)产生的,不易并行化。它的代表是AdaBoost、GDBT。

2.1 Bagging

Bagging 在原始样本中随机抽样获取子集,用随机抽样的子集训练基学习器(base_estimator),然后对每个基学习器的结果求平均,最终得到的预测值。随机获取样本子集的方法有很多中,最常用的是有放回抽样的booststrap,也可以是不放回的抽样。基学习器可以是相同的模型,也可以是不同的,一般使用的是同一种基学习器,最常用的是DT决策树。由于bagging提供了一种降低方差(variance)的方式,所以一般会使用比较强、复杂的基学习器模型(e.g.fully developed decision trees),作为对比在boosting方法中会使用非常弱的基学习器模型(e.g. shallow decision trees)。在sklearn中实现了基于bagging的分类和回归方法,主要设置参数为基学习器的类型、迭代次数(子模型的个数)、获取训练子集的方式。由于bagging训练每个模型可以并行,还可以设置n_jobs训练模型使用的多少个cpu核。

2.2 随机森林(RF)

RF在实际中使用非常频繁,其本质上可bagging并无不同,只是RF更具体一些。一般而言可以将RF理解为bagging和DT(CART)的结合。RF中基学习器使用的是CART树,由于算法本身能降低方差(variance),所以会选择完全生长的CART树。抽样方法使用bootstrap,除此之外,RF认为随机程度越高,算法的效果越好。所以RF中还经常随机选取样本的特征属性、甚至于将样本的特征属性通过映射矩阵映射到随机的子空间来增大子模型的随机性、多样性。RF预测的结果为子树结果的平均值。RF具有很好的降噪性,相比单棵的CART树,RF模型边界更加平滑,置信区间也比较大。一般而言,RF中,树越多模型越稳定。

2.3 AdaBoost

AdaBoost 是一种Boosting方法,与Bagging不同的是,Adaboost中不同的子模型必须是串行训练获得的,每个新的子模型都是根据已训练出的模型性能来进行训练的,而且Boosting算法中基学习器为弱学习。弱学习器可以理解为只比随机猜测好一点,在二分类情况下,错误率略低0.5即可,实际中常使用 small decision trees。AdaBoost中每个训练样本都有一个权重,这些权重构成了一个向量W,初始值都为为Wi=1/N。

Adaboost中每次迭代生成新的子模型使用的训练数据都相同,但是样本的权重会不一样。AdaBoost会根据当前的错误率,增大错误样本权重,减小正确样本权重的原则更新每个样本的权重。不断重复训练和调整权重,直到训练错误率或弱学习器的个数满足用户指定的值为止。Adaboost的最终结果为每个弱学习器加权的结果。使用sklearn中的Adaboot时,主要调节的参数有n_estimator(多少棵树)、max_depth(每棵树的深度。复杂度)或者min_samples_leaf(最少的叶子节点)。

2.4 GDBT

GDBT也是一种Boosting方法,每个子模型是根据已训练出的学习器的性能(残差)训练出来的,子模型是串行训练获得,不易并行化。GDBT使用非常广泛的,能分类,能回归预测。GDBT基于残差学习的算,没有AdaBoost中的样本权重的概念。GDBT结合了梯度迭代和回归树,准确率非常高,但是也有过拟合的风险。GDBT中迭代的残差的梯度,残差就是目前结合所有得到的训练器预测的结果与实际值的差值,不理解可以参考另一篇博客,里面有一个实例介绍如何基于残差来学习预测人的年龄。GDBT的使用也非常的简单,主要调节的参数有确定需要多少棵树(n_estimator)、每棵树的复杂度(max_depth,max_leaf_node)、损失函数(loss)以及学习率(learning_rating)。为了防止过拟合一般学习率会选小一点的(<0.1),learning_rate会影响n_estimator,需要权衡,选择最佳的组合参数。

本文作者:雪姬

来源:51CTO

时间: 2024-09-12 19:59:33

集成学习方法的相关文章

机器学习算法基础(Python和R语言实现)

简介 谷歌的无人驾驶汽车已经受到了世人很大的关注,但公司的未来却是在机器学习领域,因为这项技术将使电脑更智能,更人性化.--埃里克·施密特(谷歌主席) 我们可能正经历着人类最明确定义的阶段,这个阶段计算机计算从大型主机,到个人电脑,到云计算.但这些并不是根本原因,而是接下来几年中将会发生的. 这个时期使那些像我一样的人们兴奋的是工具和技术的开放,这得以于计算机领域的蓬勃发展.今天,作为一名数据科学家,我能以很低的成本搭建一个拥有复杂算法的数据处理系统.但是达到这样的结果,我也经历了在黑夜中艰苦的

《推荐系统:技术、评估及高效算法》一2.3 分类

2.3 分类 分类器是从特征空间到标签空间的映射,其中特征代表需要分类的元素的属性,标签代表类别.例如,餐厅推荐系统能够通过分类器来实现,其分类器基于许多特征描述把餐厅分成两类中的一类(好的,不好的). 有许多种类型的分类器,但是一般情况下我们谈的有监督分类器和无监督分类器.在有监督分类器中,我们预先知道一组标签或是类别,并且我们有一组带有标签的数据,用来组成训练集.在无监督分类中,类别都是提前未知的,其任务是恰当地组织好我们手中的元素(按照一些规则).在本节中我们描述几个算法来学习有监督分类,

《实用机器学习》——1.4 本书概述

1.4 本书概述 本书主要从解决实际问题的角度来介绍常用的机器学习算法.在1.3节中我们讨论了机器学习中常见的4类典型问题,基本上覆盖了目前实际中可以使用机器学习算法来解决的主要问题类型.在本书中,我们将主要讨论对应的4类算法,包括: 回归算法: 分类算法: 推荐算法: 排序算法. 其中回归算法和分类算法是两类最常用的算法,也是其他很多算法的基础,因此我们首先予以介绍.推荐系统在目前有了越来越多的应用,而排序算法在搜索引擎等领域也获得了广泛的应用,因此我们也会对常用的推荐算法和排序算法进行介绍.

机器学习算法一览(附python和R代码)

"谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习. " -- 埃里克 施密特(谷歌首席执行官) ◆ ◆ ◆ 当计算从大型计算机转移至个人电脑再转移到云的今天,我们可能正处于人类历史上最关键的时期.之所以关键,并不是因为已经取得的成就,而是未来几年里我们即将要获得的进步和成就. 对我来说,如今最令我激动的就是计算技术和工具的普及,从而带来了计算的春天.作为一名数据科学家,我可以建造一个数据处理系统来进行复杂的算法运算,这样每小时能

裴丹教授采访|如何实现智能运维及对运维行业的未来展望

编者按 裴丹教授,清华大学计算机系长聘副教授,主要研究领域是基于机器学习的互联网智能运维,深耕此领域15年,发表了80余篇学术论文和20余项美国专利.裴教授同时还是国家青年千人计划,美国UCLA博士,曾任美国AT&T研究院主任研究员,也是ACM 和 IEEE的Senior Member. 裴教授也是本次中生代&飞马网年度技术大会(北京)的运维专场出品人.小编有幸先行对裴丹教授进行了采访,如果你也非常期待见到裴教授并跟他进行深度交流,一定不能错过即将举行的年度技术大会. 访谈实录 裴教授,很

bootstrap, boosting, bagging

介绍boosting算法的资源: 视频讲义,介绍boosting算法,主要介绍AdaBoosing http://videolectures.net/mlss05us_schapire_b/ 在这个网站的资源项里列出了对于boosting算法来源介绍的几篇文章,可以下载: http://www.boosting.org/tutorials 一个博客介绍了许多视觉中常用算法,作者的实验和理解,这里附录的链接是关于使用opencv进行人脸检测的过程和代码,可以帮助理解训练过程是如何完成的: http

哈工大在CoNLL上斩获全球第四,车万翔博士详解背后的技术细节

CoNLL 系列评测是自然语言处理领域影响力最大的技术评测,每年由 ACL 的计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL)主办.在今年 CoNLL-2017 评测(http://universaldependencies.org/conll17/)上,哈工大社会计算与信息检索研究中心取得第四名的佳绩,这也是亚洲团队所取得的最好成绩.为此,雷锋网(公众号:雷锋网) AI 科技评论荣幸地邀请到了哈尔滨工

这些很棒编程学习方法 你知道吗

一旦你发现一个学习工具,它采用自上而下的方法,那么什么是最好的学习方法?我对这有一个具有争议性的观点:我认为尽可能快地记住基础知识对初学者 而言是绝对有必要的.当成为更高级的学习者,记忆很快成为一个被丢弃了的方式.你可能听到过别人轻视地说("不要死记,要内部消化","我在消化记住的东 西","我讨厌测试,我不得不回想起记忆中的东西"). 另一方面,当你还是小学的时候,你被迫花时间来背乘法口诀表.为什么要背呢?因为你的基础乘法口诀表可以是构建更复杂

如何学好VC和MFC(各前辈学习方法及感受整理)(二)

接上篇) VC 进阶:1. C 语言:2. C++ ,OOP:3. Windows 运作机理,SDK编程:4. MFC类库,应用程序框架编程:5. ActiveX,ATL,COM--每步骤通常需要6个月,最快也得3个月,诸位同意否? 学 VC 或 windows 编程分三 STEP:1. 只 SDK 提供的 Function 作开发,不要Object, 你会知 How to handle Message. 2. MFC 编程, 用 CEdit 等开发.3. 再用 VC如果你有一个别人的好程序,