《中国人工智能学会通讯》——9.11 集成学习的基本方法

9.11 集成学习的基本方法

集成学习能够把多个单一学习模型所获得的多个预测结果进行有机地组合,从而获得更加准确、稳定和强壮的最终结果。集成学习的原理来源于 PAC 学 习 模 型(Probably approximately correctlearning)。Kearns 和 Valiant 最早探讨了弱学习算法与强学习算法的等价性问题[3-4] ,即提出了是否可以将弱学习算法提升成强学习算法的问题。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为分类集成学习模型、半监督集成学习模型和非监督集成学习模型三大类。监督集成学习模型,又称为分类集成学习模型(classifier ensemble),包括一系列常见的分类技术,如bagging [5] 、boosting [6] 、随机森林[7] 、随机子空间 [8] 、旋转森林[9] 、基于随机线性预测器的集成技术 [10] 、神经网络集成技术[11-12]等。一方面,Adaboost 算法是学习过程集成的典型例子。它在学习过程中不断地调整训练样本的权重,从而把多个弱分类器有机地结合成一个强分类器。另一方面,bagging 技术是学习结果集成的典型例子。它通过合适的投票机制把多个分类器的学习结果综合为一个最具代表性的结果。图 1 示出了学习结果集成的基本框架图。当给定一个训练集,集成学习首先通过一系列的数据映射操作,如采样、随机子空间、扰动、投影等,生成多个不同的新训练集。新训练集之间,以及新训练集与原训练集尽可能不同。这样,我们才能够探索样本在相对稳定的类结构下的不同表现形式。与此同时,要确保新训练集仍然保持原有相对稳定的类结构。然后,集成学习采用新训练集训练一种
或多种基本分类器,并通过选择合适的投票机制,形成组合分类器。最后,运用组合分类器对测试集中的样本进行预测,获取这些样本的标记。

图 2 示出了 Adaboost 集成基本框架图。当给定一个原始训练集,Adaboost 算法首先赋予训练集的每个样本相等的权重系数,然后用这些样本训练一个弱分类器,并对原始训练集的样本进行预测,接着更新训练集样本的权值。标记预测错误的样本,权重减少;标记预测正确的样本,权重增加。最后,Adaboost 获得权值更新的训练集。算法不断地重复之前的步骤,不断生成新训练集,不断训练新的分类器,直到获得一组分类器。这组带权重系数的分类器将用于预测测试集中样本的标记,并获得最终结果。
图3 示出了随机子空间集成基本框架图。当给定一个原始训练集,该算法首先对属性维进行随机采样,生成一组随机子空间;然后在子空间中生成相应的训练集,并用不同子空间下的一组新训练集来训练出一组分类器。在测试阶段,首先把测试集中的样本投影到相应的子空间中;然后用子空间的分类器预测样本标记;最后通过合适的投票机制把所有的预测结果进行综合,从而获得最终结果。
半监督集成学习模型包括多视图学习模型、共性最大化学习模型等。非监督集成学习模型,又称为聚类集成 (cluster ensemble) 或一致性聚类(consensus clustering),最早由 Strehl 提出。经过多年的研究,大量的聚类集成学习模型被提出来,如基于图论的聚类集成算法、基于多次谱聚类的聚类集成算法、混合模糊聚类集成算法等。

国际上与集成学习模型的相关研究工作还很多,以上只是列举了部分经典的研究工作的情况。国内许多著名的专家学者也在集成学习模型上做了很多的研究,如周志华教授的团队等(在此不一一列出)。如需了解更多信息,可参考周志华教授的关于集成学习的新书[13] 。

集成学习的产业应用主要指的是把集成学习模型应用到各个不同产业和领域中,从而实现集成学习模型的价值。例如,在生物信息学领域,Yu etal [14] 成功地把集成学习模型应用于预测蛋白与酶绑定的磷酸化位点。在数据挖掘领域,Zhu et al [15] 把集成学习模型与主动学习相结合,应用于数据流的模式挖掘。在多媒体领域,Xu et al [16] 把集成学习模型用于检测交通视频中的行人。集成学习应用的论文很多,在此不再一一列出。

时间: 2024-10-24 18:49:48

《中国人工智能学会通讯》——9.11 集成学习的基本方法的相关文章

《中国人工智能学会通讯》——11.32 国内外研究现状

11.32 国内外研究现状 迁移学习最初是在 1995 年举行的 NIPS 神经信息处理系统进展大会"Learning to Learn"研讨会上由卡耐基梅隆大学 Tom Mitchell 等人提出,并迅速发展起终身学习.归纳迁移等多个学习范式,其中发展最快的是多任务学习[6] ,已成为具有严格理论保证的迁移学习方向.随着迁移学习研究的进展,2005 年美国国防部国防高等计划研究署(DARPA)赋予了迁移学习新的研究使命:学习系统应具备将过去任务学习的知识和技能应用于新任务的能力.此后

《中国人工智能学会通讯》——11.53 合成人脸画像质量评价

11.53 合成人脸画像质量评价 下面对以上三章中提到的基于稀疏近邻选择方法(SFS, Sparse Feature Selection).基于人脸幻 象 思 想 的 合 成 方 法(SFS-SVR, Sparse FeatureSelection & Support Vector Regression) 和 基 于 直推式学习的方法(TFSS, Transductive Face SketchSynthesis)三种算法,以及基于位置的人脸画像合成方法 (PFSS, Position base

《中国人工智能学会通讯》——11.71 在线多示例度量学习的结构化稀 疏表观模型

11.71 在线多示例度量学习的结构化稀 疏表观模型 正如上一节所述,稀疏表示作为一种有效的物体中层表示策略,在视觉目标跟踪中得到了成功应用.然而,基于稀疏的跟踪算法中[3-9]最终跟踪结果的确定大多以重构误差大小为衡量标准.研究发现,以重构误差构造目标的观测似然概率存在一些问题. (1)重构误差的大小很大程度上依赖于字典的构成.很多跟踪算法[12-13]采用在线地更新字典基元的方式以适应目标表观变化,即所谓的跟踪中字典学习策略.然而,用最新的跟踪结果来更新字典基元,由于潜在的误差累积很容易造成

《中国人工智能学会通讯》——11.63 属性关系的自动学习

11.63 属性关系的自动学习 由于不同属性是对同一目标不同角度特征的描述,因此属性之间很可能存在某种相关关系.例如,"游泳"和"水"两个属性非常相关,而"游泳"和"植食性"两个属性相关性不强.直觉上,挖掘并利用属性之间的相关关系可为后续处理过程提供丰富而鲁棒的高阶信息,并有助于约减搜索空间,提高属性分类器的泛化性能.传统属性学习方法中,属性之间的关系一般通过预先统计或者借助外在语义 知 识 库( 如 WordNet.Wiki

《中国人工智能学会通讯》——11.77 特征学习模型在天文光谱识别中的 应用

11.77 特征学习模型在天文光谱识别中的 应用 随着新一代巡天观测.时域观测等天文项目的推进,当前的天文数据以"雪崩"之势增长[18] ,由此导致了天文数据自动挖掘方法研究的必要性和迫切性.国际上,近年来大规模图像巡天和大样本光谱巡天方面已经取得了长足的进展[19] ,特别是一系列光谱巡天计划的成功实施,使人们获得了空前丰富的恒星光谱资料,推动了天文学各个分支的蓬勃发展.恒星光谱,无论是连续谱还是线谱,差异极大.恒星光谱主要取决于恒星的物理性质和化学组成.因此,恒星光谱类型的差异反映

《中国人工智能学会通讯》——11.52 基于直推式学习的异质人脸图像 合成

11.52 基于直推式学习的异质人脸图像 合成 前面介绍的方法都是基于归纳式学习(InductiveLearning) 的,这些方法取得了不错的效果,但是它们也使得测试样本风险误差增加,进而可能影响合成图像的质量.这是因为归纳式学习是对训练样本进行最小化经验风险误差,学习得到一定的规则,然后在此规则指导下,对测试样本进行分类.回归或者其他操作,这个过程中测试样本完全不参与训练过程.而直推式学习 (Transductive Learning) 是将所有的样本(包括测试样本和训练样本)一起进行学习,

《中国人工智能学会通讯》——11.20 多任务学习在交通分析中的应用

11.20 多任务学习在交通分析中的应用 本章对文中所提出的多任务学习方法在我国安徽和山西两省的真实高速公路交通场景中的应用进行介绍,涉及到的具体分析问题包括交通关联模式挖掘.交通流预测和交通异常监测与分析.图 3(a)为安徽省高速交通的出入口流量分配模式矩阵,其中数值较大的出入口流量集中于对角线附近,这说明安徽省高速公路网的出入口流量分配模式具有局部流量密集的特点,即短途的车流量较大.交通路网的出入口流量分配矩阵直接代表了车辆的出行模式[7] .图 3(b) 为两省高速公路交通流全网络下一时刻

《中国人工智能学会通讯》——11.30 深度迁移学习

11.30 深度迁移学习 随着互联网技术在各个领域的广泛应用,特别是社会网络,以及移动计算的崛起,文本.图像.视频等非结构化数据呈现出指数式增长,迫切需要有效的数据分析方法和高效的数据处理算法.机器学习作为大数据智能化分析的主要技术基石,在理论和实践两方面都取得了飞速进展,特别是在深度学习[1]上取得了革命性突破. 虽然人们已经能够通过信息系统.社会媒体.移动计算.工业互联网等渠道收集到大规模.多模态.高维度.快速变化的大数据,但大数据中高价值的标记数据还是比较稀缺的.从监督机器学习的视角来看,

《中国人工智能学会通讯》——11.64 基于成对约束的属性特征选择

11.64 基于成对约束的属性特征选择 属性学习常面临低层特征维度特别高的问题.例如,在 Animals With Attributes 数据集中,每张图片对应 6 种类型的特征,即 2 688 维的 RBG 颜色直方图特征.1 526 维的 Phog 特征.2 000 维的 Sift特征.2 000 维的 rgbSift 特征.2 000 维 Surf 特征和 2 000 维的局部自相似直方图(LSS,local self-similarity histograms)特征.直接利用这些庞大的低

《中国人工智能学会通讯》——11.69 基于主动样本选择的判别式跟踪 方法

11.69 基于主动样本选择的判别式跟踪 方法 上面提出的基于标签传播模型的判别式跟踪方法,该方法与大多数判别式跟踪方法一样,在学习分类器时利用采样和加标签两个独立的策略选择训练样本.这种常用的训练样本选择策略存在以下两个问题.第一,根据已有的跟踪结果为样本估计标签容易引起误差累积.跟踪结果存在轻微的不准确都能导致样本标签的错误估计,进而干扰分类器的学习.第二,样本的采集是无目的性的.采集到的样本并不一定含有提高分类器性能的有利信息,导致分类器性能具有不确定性.现有的大部分判别式跟踪方法主要关注