《中国人工智能学会通讯》——第9章 9.1 误差建模原理

第9章 9.1 误差建模原理

著名机器学习专家,卡内基梅隆大学的 TomMitchell 教授曾经用三个要素定义了机器学习的基本概念1[1] ——基于经验 E,针对学习目标 T,提升表现度量 P。经验是学习的信息来源,代表了预先获取并输入机器学习算法的训练数据或信号观测。如对于有监督学习问题,经验体现为数据及其标记构成的有标记数据集合;而对于无监督学习问题,经验就仅体现为数据本身构成的无标记数据集。学习目标是学习的最终任务,体现为机器学习方法预期获得的最终输出结果。如对于判别问题,学习目标为对未知数据能够执行判别的决策函数;对于信号复原问题,学习目标为对输入信号进行恢复的信号等。

表现度量是学习的实现手段,对应于一个衡量学习效果满意程度的量化标准。通过将表现度量作为优化问题的目标函数并设计优化算法对其进行求解,机器学习的任务得以实现。如何构造机器学习的表现度量,或者说如何对机器学习的优化问题进行建模,是对给定数据与特定学习目标进行有效机器学习的核心问题。通常采用如下模型来实现这一目的:
该模型中,D代表了训练数据;f(W)代表了学习目标;W 代表了模型参数。模型中主要包含三个因素,其物理意义分别如下:L(f(W),D) 为误差函数,代表了学习目标对训练数据的拟合精度,最常见的形式包括最小二乘误差(即 L 2 范数误差)与稳健误差(如L 1 范数误差等)等;P(W) 为正则项,编码了模型参数的先验信息,常采用的形式包括 ridge 正则(即L 2 范数正则)或稀疏正则(如 L 1 范数正则等);Ω称为学习机,代表了一个预先设置的学习目标可行集,其功能为对学习目标的学习范围进行约束。机器学习首先要关注的问题,当然是学习目标对训练数据的有效拟合。这一目标又可称为经验风险极小化原理 (empirical risk minimization) [2] 。

具体来说,就是如何针对输入数据 D,使在经验数据上的误差,L(f(W),D) 尽可能小的问题。神经网络是基于这一原理实现的典型机器学习方法,其跌宕起伏的发展历程,几乎可以概括为一部“成也拟合,败也拟合”的历史。最早期由 Rosenblatt 提出的感知机概念[3-4] ,事实上对应于一个包含简单加减法的两层神经网络。尽管在字母识别等应用中体现了一定的应用效果,但其拟合能力有限的问题很快受到其他学者的质疑。特别是,在 1969 年著名科学家Minsky 与 Papert 关于感知机的著作中[5] ,证明了感知机甚至无法对经典异或问题进行有效拟合。此问题导致之后十多年的时间,神经网络的研究几乎停滞不前。其再一次复兴的标志成果为 1975 年出现的后向传播算法[6] 。该算法解决了神经网络对异或回路的拟合学习问题,并实现了多层神经网络的有效训练策略。由于理论可以证明,多层网络具有对广泛函数的万有逼近(universal approximation)性能[7] ,机器学习对于数据的拟合问题似乎得以很好的解决,这也带来了神经网络在上世纪八九十年代的又一次研究热潮。然而,学者们很快发现,片面地追求在训练数据上的拟合精度往往也是有问题的。当采用形态较为复杂的学习目标对学习任务进行训练时,在训练数据上拟合精度可能很高;然而当对未包含在训练数据中的测试数据进行预测时,精度却可能较差,特别在训练数据的数目相对较少的情况下(即小样本问题),这一问题尤为突出。这一现象,被称之为机器学习的过拟合问题

。其背后的哲学原理称为“奥卡姆剃刀原理”(Occam's Razor [8] ),其含义为“如无必要,勿增实体”,即简单有效原则。换句话说,在保证拟合精度的前提下,我们更加预期形式简单的学习目标。从学习理论的角度理解,机器学习的目的不仅关注于学习结果对于训练数据的“ 逼 近 能 力”(approximation capability), 更 加 要强调所获学习目标对未来数据进行预测的“泛化能力”(generalization capability)。过度复杂的学习目标(如一个深层全连接的前向神经网)也许会使学习对训练数据实现精确拟合,这种过度的拟合忽略了训练数据中蕴含的噪音扰动与结构缺失,从而导致其无法对体现数据一般规律的测试数据进行有效拟合;而蕴含了数据本质结构的简单学习目标,尽管使学习对训练数据的逼近能力减弱,却可能使获得的学习目标减弱了噪音的干扰,增强了对数据结构的刻画功能,从而具有更好的泛化能力。因此,设置合适的正则项与学习机对学习目标的复杂度进行限制,就成为机器学习十分重要的研究内容。

对于机器学习的建模原理,也由经验风险极小化原理,进化为结构风险极小化原理 (StructuralRisk Minimization) [2] 。即,不仅要在机器学习模型中考虑对训练数据的拟合精度,同时要对学习目标结构进行约束和控制,使其在保证拟合精度的前提下,尽可能具有简单的形式。对于学习目标结构的控制,可以通过在机器学习模型 (1) 中加入模型参数正则项或者设计学习机结构的方式来实现。基于这一原理设计的最为典型的机器学习方法,是由Vladimir Vapnik 教授提出的支撑向量机[9] 。该方法采用分类最大间隔 (maximum margin) 构造了模型参数的正则项,并发展了完善的统计学习理论,证明了该正则项有益于机器学习泛化能力的增强。在这一阶段 ( 大约为上世纪 90 年代后期与本世纪前 10年的时间 ),以使用简单学习目标结构的支撑向量机为代表的学习策略成为了机器学习的主流,神经网络研究的热度又一次开始跌落。近年来,关于如何针对特定应用问题和数据结构类型,将领域知识嵌入机器学习模型的学习目标结构,逐渐成为非常热点的研究方向。

一个典型的例子为 L 2,1 组稀疏正则[10] ,其功能为将数据的领域聚类结构信息嵌入数据变量稀疏性的编码之中。事实上,近十年来深度神经网络掀起的又一股机器学习的热潮,从一定意义上也许仍然是此类领域正则的体现。其良好性能的来源也许并不完全在于其远比传统神经网络更大、更深的网络结构,而也很可能是由于其基于 Imagenet 等性态良好、结构丰富的大规模数据集进行预训练后的初值准备(待迁移的先验知识正则),基于问题内涵与数据特点对网络结构进行的匹配设计(针对性的领域结构正则),以及如 dropout [11] 与 Batch Normalization [12] 等本质嵌入了正则因素的训练方法(隐式的模型参数正则)等。只不过在大数据的背景下,由于数据规律本身极其复杂,即使经过如此的正则控制,最终呈现的学习目标仍然相对传统方法具有更为庞大的结构形式。试想,即使针对所谓大规模数据,如果用一个参数量巨大,却不考虑任何数据 / 问题相关先验知识的全连接神经网络去对数据进行学习,除过庞大计算量的问题之外,过拟合问题也许仍然难以避免。以上介绍了机器学习从学习目标对数据的拟合,到学习目标的正则控制,再到学习目标中领域结构知识的有效编码与嵌入的发展历程。到目前为止,机器学习已在诸多领域中获得令人兴奋的成功应用,体现了蓬勃的发展趋势。

那么自然的一个问题是,未来机器学习还有什么值得研究的科学问题?在最近一个对周志华教授的访谈中2 ,关于机器学习下一步发展的问题,周教授提出了这样一个观点:“往后有很多任务可能都需要新的机器学习技术,但是一个大的趋势是我们要增加机器学习的鲁棒性。”在今年刚刚结束的人工智能顶会AAAI中,著名学者 Thomas G. Dietterich 教授也特别表达了对人工智能鲁棒性的关注3 。所谓机器学习方法的鲁棒性 (robustness),简单来说,就是当数据中包含异常干扰时,方法仍然能够保持稳健可靠的良好性能。事实上,从机器学习的基本模型 (1) 来看,机器学习的鲁棒性与误差函数的选择紧密相关。因此,接下来不再强调以上不断提及的学习机与正则项,侧重谈谈机器学习的误差项。

时间: 2024-08-30 05:07:06

《中国人工智能学会通讯》——第9章 9.1 误差建模原理的相关文章

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.