简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

首发地址:

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译。

以下为译文

机器学习理论-Part3 正则化和偏置方差的权衡

在第一部分探讨了统计模型潜在的机器学习问题,并用它公式化获得最小泛化误差这一问题;在第二部分通过建立关于难懂的泛化误差的理论去得到实际能够估计得到的经验误差,最后的结果是:

 

通过假设有固定的数据集,可以简化该界限,对于具体的置信度有:

本节基于该简化理论结果,开始针对解决机器学习问题的过程总结一些概念。

为什么丰富假设是坏的?

为了让事情更加具体并能够将讨论的内容可视化,将会使用仿真数据集。在仿真数据集中定义目标函数,使用该函数并通过计算机程序画出尽可能多想要的数据集。

接下来讨论统一来自区间[-1,1]之间样本x,并使用一维目标函数,加入零均值,标准差为2的高斯分布噪声后为。由于想要预测特征和响应y之间的关系,需要假设噪声尽可能的小。

下面训练一个线性、三次和十次多项式假设,仿真样本集有200个点,画出以上描述的分布,这些模型用淡蓝色的线标注,假设的平均值是用黑色蓝线标注,然而真实值是用破折线表示。

首先可以注意到越丰富,假设越复杂,真实目标的平均值也变得越小,估计的均值与目标值之间的差在统计学上作为偏差:

 

为了让解释更加具体,对目标函数进行泰勒展开,形式如下:

 

明显地,随着分母的增大,高分量对函数的贡献越小,这也导致更高分量显得次要。

线性模型的高偏置能够通过线性假设函数解释,目标函数的主要x分量为,同样地三次模型的低偏置能够通过三次假设函数解释。

 很容易看到,假设与目标的平均值越接近,从目标值得到的平均损失也越小。这意味着低偏置的假设结果有着低的经验风险。

假设越丰富,捕获噪声的能力也变得越大,回到刚才的动画,可以注意到三次模型是如何达到目标图表尖峰的,但在顶帧时仍然不能够得到,最后在十次模型能得到顶峰,这种假设被称为数据集的过拟合。过拟合的行为可以通过注意挤满在其均值(深蓝色曲线)周围的线性假设的实值(淡蓝色曲线)与凌乱的十次模型均值周围的对比来量化。这表明假设越过拟合,可能实值在其均值周围分散得越宽,所以假设过拟合能够通过均值周围的方差为多少量化:

 

显然地,高方差模型不是理想的,因为我们不希望去适应噪声,因为丰富模型有更高的方差,这使得模型很坏并且泛化界限受到惩罚。

 

方差分解

下图是十次模型图:

 

由于每次随着随机采样D而变化,考虑将作为精确假设的随机变量。利用第一部分中的类似技巧,将随机变量分解成两个分量:代表其均值的确定性分量和代表其方差的随机分量;

 

其中是零均值、方差等于假设方差的随机变量:

 

因此可以用表示。

使用损失函数的平方差,能够对一些具体数据点x的风险写成:

 

用数据集D的期望作为数据点(x,y)分布的期望,使用的分解值可以得到:

 

由于期望的线性性和偏置不依赖D的事实,重写上述等式:

 

由于的均值为0,且有

 

则有

 

对于每个可能数据集D的所有数据点,其风险是

 

这表明泛化误差很好地分解为模型的偏置和方差,将这分解与泛化不等式相比,可以看到偏置与经验风险、方差与复杂性术语之间的联系。这就是偏置-方差分解,需要找到偏置与方差之间平衡的模型。

改良丰富度

研究更多的过拟合行为,考虑个体假设,关注红色曲线并查看其多项式系数,特别是对于目标函数的泰勒展开而言,对于特定函数,我们研究后发现:

 1. 它的x前系数是3.9,而不是目标函数泰勒展开中的1;

 2. 它的前系数为-5.4,而不是

 3. 它的前系数为22.7,而不是

 4. 它的前系数为-53.1,而不是

 5. 它的前系数为33.0,而不是

可以看到,假设大大过估计了其系数,因此给了另外一种方法量化过拟合行为,即该假设的参数或者系数的大小是否大于其真值。

在训练模型时,发现参数w向量最小化给定数据集的经验风险,表示为优化问题:

 其中m是数据集大小,x是特征向量,h(x;w)是假设。为了最小化幅度值,等价于队每个幅度进行范数约束,选择其中的一种欧几里得范数:

 

N表示特征的数量,所以我们能够重写最优化约束为:

 

引入拉格朗日乘子,可以以无约束方式表述约束最优化问题:

 

通过选择λ约束Q,可以摆脱对Q的显著依赖,并使用任意常数k替换Q:

 

上式就是正则化损失函数,这种正则化形式由于使用的是L2范数,也被称为L2-正则化。

 

上图显示的是L2正则化训练十次模型的结果,可以看到正则化结果无正则化的效果要好;尽管正则化使得偏置增大,但其方差降低得更多,这使得整体风险变小。

下图显示的是线性模型的均方差损失的轮廓,红色曲线描述的是L2正则化约束。 

该图表明当使用正则化后,最优化问题的解决方案从原始位置移动到该约束圆的最低位置,这意味着对于可行的解决方案,必须在该约束圆内,所以考虑将整个2维图表作为正则化前的假设空间,正则化后将假设空间约束到红圈中。

有着上述观察,可以将最小化问题

 

等价于泛化界限,正则项作为复杂项的最小值,这种变换的唯一缺少的是损失函数L的定义,这里使用的是平方差,下次将选择其他的损失函数并结合其所有的基本原则。

参考文献:

  l Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA.

      l Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: ashort course.

文章原标题《Machine Learning Theory - Part III》,作者:Mostafa Samir,译者:海棠 

 文章为简译,更为详细的内容,请查看原文

时间: 2024-09-19 21:30:54

简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )的相关文章

简单自学机器学习理论——引言 (Part I )

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 机器学习理论--part I 前言 (第II部分内容点此:第III部分内容点此) 动机 大多数人在小的时候被魔术师以及魔术技巧所迷住,并想弄明白其中的奥秘.有些人会带着这份迷恋研究到更深处并学习魔术技巧,有些人会接受专业的训练,而其他人会继续平庸下去.我在年幼时也尝试过魔术技巧并沉迷于其中,然而后来学习的是另外一种魔术,称作计算机编程. 编程确实酷似魔法, 和魔术一样,自学的现象在计算机编程世界占了上风.在过去的两年计算机开发者

简单自学机器学习理论—— 泛化界限 (Part II )

首发地址:https://yq.aliyun.com/articles/67168 本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 机器学习理论 part II- 泛化界限(第I部分内容点此:第III部分内容点此) 上节总结到最小化经验风险不是学习问题的解决方案,并且判断学习问题可解的条件是求: 在本节中将深度调查研究该概率,看其是否可以真的很小. 独立同分布 为了使理论分析向前发展,作出一些假设以简化遇到的情况,并能使用从假设得到的理论推理出实际情况. 我们对学习问题作出的

机器学习理论研究方法探讨

本文译自:http://www.alexirpan.com/2016/07/17/ml-sleep.html,原文标题<The Machine Learning Casino>,译文供您参考. 一.机器学习理论研究 机器学习是一种能使计算机半自主地对数据进行分析,并从中学习经验的算法. 机器学习理论的研究听上去就好像做这么一件事,让我们的研究人员去深刻探索,提高计算机学习数据集的效率的方法. 事实上,机器学习理论的研究可以在我们的生活的每时每刻找到影子.就好像你在不断的进行一场赌博,只不过你的

知乎张瑞: 浅析机器学习理论与实践 | 业界对话

张瑞,研究生毕业于北京邮电大学,毕业后一直从事搜索引擎及自然语言处理方向的研发工作.曾就职于百度及豌豆荚.现任知乎机器学习团队负责人. 特约记者丨杨润琦(南京大学),刘冲(北京邮电大学) 杨润琦:能否和我们介绍一下知乎的机器学习团队?目前主要负责哪些方面的工作和任务呢? 张瑞:我们团队是一个横向的功能团队,也就是说整个知乎平台上用到的机器学习场景都会交给我们团队负责,也包括建设一套完整的机器学习栈.我们将所有的应用场景分为两大模块,六大方向.两大模块分别是基础数据和基础技术,另一个是和业务相关的

Photoshop简单制作机器手臂效果后期教程

给各位Photoshop软件的使用者们来详细的解析分享一下简单制作机器手臂效果的后期教程. 教程分享: 效果图:   步骤1:新建画布,设置参数(宽9cm 高13cm),将背景填充为黄色,而后单击"创建新的填充或调整图层"按钮,选择"渐变填充"选项 设置参数,并添加蒙版适当的涂抹,设置"不透明度"为80%                   步骤2:新建图层1,使用柔角画笔绘制白色光影效果,并设置图层混合模式为"叠加".拖进&

PS合成一只简单的机器蜜蜂

  效果图虽然简单,不过非常有创意.思路:截取仪表上的一些小齿轮,小部件放到蜜蜂的局部,通过一些变换组合成机械效果;后期处理细节,增加阴影等即可. 最终效果 1.我想最难的部分就是选择组成蜜蜂身体部分的金属锯齿啦~我们将要选择如下图所示的红色区域哦~这里用的是快速蒙版,但你可以用自己的方法将它们抠取出来. 2.新建1500×1500 px,72分辨率的图层,然后将蜜蜂素材放置进去~将如下图所示的金属部分放置到蜜蜂的身上,摆放的位置一定要看起来很自然,如果不自然,我们就需要适当的调整位置啦. 3.

机器学习必备手册

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习必备手册(下)--博客整理系列(六) 机器学习是计算机科学的一个子领域,在人工智能领域,机器学习逐渐发展成模式识别和计算科学理论的研究.从2016年起,机器学习到达了不合理的火热巅

避免过度拟合之正则化(转)

避免过度拟合之正则化 "越少的假设,越好的结果" 商业情景: 当我们选择一种模式去拟合数据时,过度拟合是常见问题.一般化的模型往往能够避免过度拟合,但在有些情况下需要手动降低模型的复杂度,缩减模型相关属性. 让我们来考虑这样一个模型.在课堂中有10个学生.我们试图通过他们过去的成绩预测他们未来的成绩.共有5个男生和5个女生.女生的平均成绩为60而男生的平均成绩为80.全部学生的平均成绩为70. 现在有如下几种预测方法: 1 用70分作为全班成绩的预测 2 预测男生的成绩为80分,而女生

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

近年来,深度学习大获成功,尤其是卷积神经网络(CNN)在图像识别任务上的突出表现.然而,由于黑箱的存在,这种成功一度让机器学习理论学家颇感不解.本文的目的正是要揭示深度学习成功的奥秘.通过围绕着深度学习的三个核心要素--架构.正则化技术和优化算法,并回顾近期研究,作者为深层网络的若干属性,如全局最优性.几何稳定性.学习表征不变性,提供了一个数学证明. 论文:Mathematics of Deep Learning 论文链接:https://arxiv.org/abs/1712.04741 摘要: