《中国人工智能学会通讯》——9.3 噪音拟合

9.3 噪音拟合

误差建模的目标,是从数据中自动学习适用于问题的误差函数形式。其自然的实现方法,是将数据噪音分布建模为具有更灵活变化形式的某种含参变量分布,即 e~p(e,θ);然后基于数据合理估计参数 θ 的最优取值 θ,从而获得对应误差函数的形式 L θ

然而,问题的难度在于,θ 的估计需要数据的噪音信息 E( 使用最大似然估计 MLE 或最大后验估计 MAP 方法 );E 的获取又需得到模型参数 W 的取值 (E=D-f(W));W 的获取又需要通过最优误差函数L θ 确定后对模型 (1) 进行求解获得;而该误差函数的形式又需要通过最优的噪音分布参数 θ 来确定。以上所述恰好形成了一个求解机器学习问题的迭代优化算法,算法框架如图 3 所示。其更新模型参数W 的步骤,对应于在当前误差函数下调整模型参数的过程;其更新噪音参数 θ 的步骤,对应于在当前模型参数下矫正误差函数的过程。这一算法框架,构成了误差建模原理的基本实现格式。


在误差建模的实现框架中,首先需要考虑的问题,是如何设计噪音分布 p(e,θ) 的形式。对这一问题最自然的选择,应该是混合高斯分布 (Mixture ofGaussian, MoG)。一方面,是由于 MoG 分布已被证明其对任意连续分布具有万有逼近性[14] ;另一方面,其诱导的范数形式均为 L 2 ,因此,相应的优化问题相对易于计算。我们称对应的误差建模方法为 MoG误差建模[15-16] 。具体来说,该方法假设噪音服从MoG 分布,即
其中, 表示以 0 为均值、 为方差的高斯分布; 为噪音混合比例; 为第 k 成分噪音方差。通过将该误差假设误差建模方法,可获得每步的误差函数形式为
式中, 为 Hadamard 乘积,代表了前后两项对应元素直接相乘的运算,H 与 D 大小一致,其第 i 个元素取值为
式中 γ ik 代表了第 i 个样本隶属于第 k 个类的隶属度。这一误差函数说明,当样本属于误差方差较大的 MoG 成分时 ( 更可能为异常点 ),该权值较小;而反之,该权值较大。因此,该误差函数具有抑制异常点,强化有效数据信息的作用。事实上,之前存在一些方法通过人工设置的方式来通过类似的误差加权策略增强机器学习的鲁棒性能,而 MoG 噪音建模可通过自适应调整的方式实现这一目标,对实际问题来说,操作更加简便易行。

但是,对于有限成分的 MoG 误差建模,其拟合能力依然是非常有限的。如当噪音分布为拉普拉斯时,理论上需要无穷多个高斯成分方能对其进行准确拟合。因此为了增强误差建模方法对于更广泛噪音的拟合性,可将噪音分布进一步强化建模为混合指数族分布 (Mixture of Exponential Power,MoEP),如下所示:
该方法又可称为 MoEP 误差建模方法[17-18] 。显然,当预先给定多种 L p k 分布作为噪音成分,相比 MoG误差建模方法,该模型对噪音具有更强的拟合能力。特别的,几乎所有目前使用的误差函数形式,包括L 2 误差、L 1 误差、L 2 +L 1 误差、混合高斯误差、混合拉普拉斯误差等,均可归纳为 MoEP 误差建模的特殊形式。

易观察到,以上的误差建模方法扩展了传统机器学习方法中固定误差函数的基本模式,将误差函数嵌入到机器学习的过程之中,基于数据诱导能够真实反映其内在噪音形态的误差函数形式。因此,误差建模的算法应该具有更广泛的适用范围,能够适用于被更复杂多变形态噪音干扰的数据,能够在更弱的条件下保证机器学习的鲁棒性能。然而,一个本质的问题是,正如我们不期待用过度复杂的形式对确定性信息进行建模一样,对随机性噪音信息进行过度建模同样可能会带来算法性能的退化。

特别的,如之前所述,当我们将学习目标结构设计的过度复杂时,最终获得的 f(W) 便会“吃进”噪音,从而导致过拟合问题;同样的,当我们将随机性噪音 E 建模的过度复杂,其也会“吃掉”数据的确定性信息成分,从而导致错误的学习目标输出。换句话说,当过度建模时,无论对于确定性信息,还是随机性信息的建模,过拟合问题均是存在的。

因此,对于来源于现实世界的数据,奥卡姆剃刀这一基本原则,可能对其本质蕴含的确定性信息与随机性信息是同时适用的。一方面,我们预期的学习目标往往具有形式简洁、结构整齐、重复出现的确定性模式;而另一方面,其内在的随机性噪音分布,往往可用由少量参数构成的随机分布来较为合理的刻画。通过对两种信息共同的“简化”编码,也许能够更为全面地体现“如无必要,勿增实体”这一机器学习的基本原则。

因此,有必要拿起奥卡姆这把剃刀,在误差建模方法中把噪音也来修剪一番。

时间: 2024-08-29 08:46:31

《中国人工智能学会通讯》——9.3 噪音拟合的相关文章

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——人工智能发展的思考

2016 年是充满了纪念意义的特殊的一年:80 年前的 1936 年,"人工智能之父"图灵提出了"可计算机器"的概念,为人工智能乃至现代信息科技奠定了基础:70年前的 1946 年,世界上第一台电子计算机ENIAC 在美国滨州诞生:60 年前的 1956年"人工智能"的概念首次被提出:50 年前的 1966 年,第一次颁发"图灵奖",到目前为止已经有 64 位获奖者:10 年前的2006 年,深度学习概念开始为大家所熟悉,并流