9.3 噪音拟合
误差建模的目标,是从数据中自动学习适用于问题的误差函数形式。其自然的实现方法,是将数据噪音分布建模为具有更灵活变化形式的某种含参变量分布,即 e~p(e,θ);然后基于数据合理估计参数 θ 的最优取值 θ,从而获得对应误差函数的形式 L θ 。
然而,问题的难度在于,θ 的估计需要数据的噪音信息 E( 使用最大似然估计 MLE 或最大后验估计 MAP 方法 );E 的获取又需得到模型参数 W 的取值 (E=D-f(W));W 的获取又需要通过最优误差函数L θ 确定后对模型 (1) 进行求解获得;而该误差函数的形式又需要通过最优的噪音分布参数 θ 来确定。以上所述恰好形成了一个求解机器学习问题的迭代优化算法,算法框架如图 3 所示。其更新模型参数W 的步骤,对应于在当前误差函数下调整模型参数的过程;其更新噪音参数 θ 的步骤,对应于在当前模型参数下矫正误差函数的过程。这一算法框架,构成了误差建模原理的基本实现格式。
在误差建模的实现框架中,首先需要考虑的问题,是如何设计噪音分布 p(e,θ) 的形式。对这一问题最自然的选择,应该是混合高斯分布 (Mixture ofGaussian, MoG)。一方面,是由于 MoG 分布已被证明其对任意连续分布具有万有逼近性[14] ;另一方面,其诱导的范数形式均为 L 2 ,因此,相应的优化问题相对易于计算。我们称对应的误差建模方法为 MoG误差建模[15-16] 。具体来说,该方法假设噪音服从MoG 分布,即
其中, 表示以 0 为均值、 为方差的高斯分布; 为噪音混合比例; 为第 k 成分噪音方差。通过将该误差假设误差建模方法,可获得每步的误差函数形式为
式中, 为 Hadamard 乘积,代表了前后两项对应元素直接相乘的运算,H 与 D 大小一致,其第 i 个元素取值为
式中 γ ik 代表了第 i 个样本隶属于第 k 个类的隶属度。这一误差函数说明,当样本属于误差方差较大的 MoG 成分时 ( 更可能为异常点 ),该权值较小;而反之,该权值较大。因此,该误差函数具有抑制异常点,强化有效数据信息的作用。事实上,之前存在一些方法通过人工设置的方式来通过类似的误差加权策略增强机器学习的鲁棒性能,而 MoG 噪音建模可通过自适应调整的方式实现这一目标,对实际问题来说,操作更加简便易行。
但是,对于有限成分的 MoG 误差建模,其拟合能力依然是非常有限的。如当噪音分布为拉普拉斯时,理论上需要无穷多个高斯成分方能对其进行准确拟合。因此为了增强误差建模方法对于更广泛噪音的拟合性,可将噪音分布进一步强化建模为混合指数族分布 (Mixture of Exponential Power,MoEP),如下所示:
该方法又可称为 MoEP 误差建模方法[17-18] 。显然,当预先给定多种 L p k 分布作为噪音成分,相比 MoG误差建模方法,该模型对噪音具有更强的拟合能力。特别的,几乎所有目前使用的误差函数形式,包括L 2 误差、L 1 误差、L 2 +L 1 误差、混合高斯误差、混合拉普拉斯误差等,均可归纳为 MoEP 误差建模的特殊形式。
易观察到,以上的误差建模方法扩展了传统机器学习方法中固定误差函数的基本模式,将误差函数嵌入到机器学习的过程之中,基于数据诱导能够真实反映其内在噪音形态的误差函数形式。因此,误差建模的算法应该具有更广泛的适用范围,能够适用于被更复杂多变形态噪音干扰的数据,能够在更弱的条件下保证机器学习的鲁棒性能。然而,一个本质的问题是,正如我们不期待用过度复杂的形式对确定性信息进行建模一样,对随机性噪音信息进行过度建模同样可能会带来算法性能的退化。
特别的,如之前所述,当我们将学习目标结构设计的过度复杂时,最终获得的 f(W) 便会“吃进”噪音,从而导致过拟合问题;同样的,当我们将随机性噪音 E 建模的过度复杂,其也会“吃掉”数据的确定性信息成分,从而导致错误的学习目标输出。换句话说,当过度建模时,无论对于确定性信息,还是随机性信息的建模,过拟合问题均是存在的。
因此,对于来源于现实世界的数据,奥卡姆剃刀这一基本原则,可能对其本质蕴含的确定性信息与随机性信息是同时适用的。一方面,我们预期的学习目标往往具有形式简洁、结构整齐、重复出现的确定性模式;而另一方面,其内在的随机性噪音分布,往往可用由少量参数构成的随机分布来较为合理的刻画。通过对两种信息共同的“简化”编码,也许能够更为全面地体现“如无必要,勿增实体”这一机器学习的基本原则。
因此,有必要拿起奥卡姆这把剃刀,在误差建模方法中把噪音也来修剪一番。