简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

首发地址：

本文由北邮@爱可可-爱生活老师推荐，阿里云组织翻译。

以下为译文

机器学习理论-Part3 正则化和偏置方差的权衡

在第一部分探讨了统计模型潜在的机器学习问题，并用它公式化获得最小泛化误差这一问题；在第二部分通过建立关于难懂的泛化误差的理论去得到实际能够估计得到的经验误差，最后的结果是：

通过假设有固定的数据集，可以简化该界限，对于具体的置信度有：

本节基于该简化理论结果，开始针对解决机器学习问题的过程总结一些概念。

为什么丰富假设是坏的？

为了让事情更加具体并能够将讨论的内容可视化，将会使用仿真数据集。在仿真数据集中定义目标函数，使用该函数并通过计算机程序画出尽可能多想要的数据集。

接下来讨论统一来自区间[-1,1]之间样本x，并使用一维目标函数，加入零均值，标准差为2的高斯分布噪声后为。由于想要预测特征和响应y之间的关系，需要假设噪声尽可能的小。

下面训练一个线性、三次和十次多项式假设，仿真样本集有200个点，画出以上描述的分布，这些模型用淡蓝色的线标注，假设的平均值是用黑色蓝线标注，然而真实值是用破折线表示。

首先可以注意到越丰富，假设越复杂，真实目标的平均值也变得越小，估计的均值与目标值之间的差在统计学上作为偏差：

为了让解释更加具体，对目标函数进行泰勒展开，形式如下：

明显地，随着分母的增大，高分量对函数的贡献越小，这也导致更高分量显得次要。

线性模型的高偏置能够通过线性假设函数解释，目标函数的主要x分量为，同样地三次模型的低偏置能够通过三次假设函数解释。

很容易看到，假设与目标的平均值越接近，从目标值得到的平均损失也越小。这意味着低偏置的假设结果有着低的经验风险。

假设越丰富，捕获噪声的能力也变得越大，回到刚才的动画，可以注意到三次模型是如何达到目标图表尖峰的，但在顶帧时仍然不能够得到，最后在十次模型能得到顶峰，这种假设被称为数据集的过拟合。过拟合的行为可以通过注意挤满在其均值（深蓝色曲线）周围的线性假设的实值（淡蓝色曲线）与凌乱的十次模型均值周围的对比来量化。这表明假设越过拟合，可能实值在其均值周围分散得越宽，所以假设过拟合能够通过均值周围的方差为多少量化：

显然地，高方差模型不是理想的，因为我们不希望去适应噪声，因为丰富模型有更高的方差，这使得模型很坏并且泛化界限受到惩罚。

方差分解

下图是十次模型图：

由于每次随着随机采样D而变化，考虑将作为精确假设的随机变量。利用第一部分中的类似技巧，将随机变量分解成两个分量：代表其均值的确定性分量和代表其方差的随机分量；

其中是零均值、方差等于假设方差的随机变量：

因此可以用表示。

使用损失函数的平方差，能够对一些具体数据点x的风险写成：

用数据集D的期望作为数据点(x,y)分布的期望，使用的分解值可以得到：

由于期望的线性性和偏置不依赖D的事实，重写上述等式：

由于的均值为0，且有

则有

对于每个可能数据集D的所有数据点，其风险是

这表明泛化误差很好地分解为模型的偏置和方差，将这分解与泛化不等式相比，可以看到偏置与经验风险、方差与复杂性术语之间的联系。这就是偏置-方差分解，需要找到偏置与方差之间平衡的模型。

改良丰富度

研究更多的过拟合行为，考虑个体假设，关注红色曲线并查看其多项式系数，特别是对于目标函数的泰勒展开而言，对于特定函数，我们研究后发现：

1. 它的x前系数是3.9，而不是目标函数泰勒展开中的1；

2. 它的前系数为-5.4，而不是；

3. 它的前系数为22.7，而不是；

4. 它的前系数为-53.1，而不是；

5. 它的前系数为33.0，而不是；

可以看到，假设大大过估计了其系数，因此给了另外一种方法量化过拟合行为，即该假设的参数或者系数的大小是否大于其真值。

在训练模型时，发现参数w向量最小化给定数据集的经验风险，表示为优化问题：

其中m是数据集大小，x是特征向量，h(x;w)是假设。为了最小化幅度值，等价于队每个幅度进行范数约束，选择其中的一种欧几里得范数：

N表示特征的数量，所以我们能够重写最优化约束为：

引入拉格朗日乘子，可以以无约束方式表述约束最优化问题：

通过选择λ约束Q，可以摆脱对Q的显著依赖，并使用任意常数k替换Q：

上式就是正则化损失函数，这种正则化形式由于使用的是L2范数，也被称为L2-正则化。

上图显示的是L2正则化训练十次模型的结果，可以看到正则化结果无正则化的效果要好；尽管正则化使得偏置增大，但其方差降低得更多，这使得整体风险变小。

下图显示的是线性模型的均方差损失的轮廓，红色曲线描述的是L2正则化约束。

该图表明当使用正则化后，最优化问题的解决方案从原始位置移动到该约束圆的最低位置，这意味着对于可行的解决方案，必须在该约束圆内，所以考虑将整个2维图表作为正则化前的假设空间，正则化后将假设空间约束到红圈中。

有着上述观察，可以将最小化问题

等价于泛化界限，正则项作为复杂项的最小值，这种变换的唯一缺少的是损失函数L的定义，这里使用的是平方差，下次将选择其他的损失函数并结合其所有的基本原则。

参考文献：

l Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA.

l Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: ashort course.

文章原标题《Machine Learning Theory - Part III》，作者：Mostafa Samir，译者：海棠

文章为简译，更为详细的内容，请查看原文

时间： 2024-11-20 20:04:33

简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )的相关文章

简单自学机器学习理论——引言 (Part I )

本文由北邮@爱可可-爱生活老师推荐,阿里云组织翻译. 以下为译文机器学习理论--part I 前言 (第II部分内容点此:第III部分内容点此) 动机大多数人在小的时候被魔术师以及魔术技巧所迷住,并想弄明白其中的奥秘.有些人会带着这份迷恋研究到更深处并学习魔术技巧,有些人会接受专业的训练,而其他人会继续平庸下去.我在年幼时也尝试过魔术技巧并沉迷于其中,然而后来学习的是另外一种魔术,称作计算机编程. 编程确实酷似魔法, 和魔术一样,自学的现象在计算机编程世界占了上风.在过去的两年计算机开发者

简单自学机器学习理论—— 泛化界限 (Part II )

首发地址:https://yq.aliyun.com/articles/67168 本文由北邮@爱可可-爱生活老师推荐,阿里云组织翻译. 以下为译文机器学习理论 part II- 泛化界限(第I部分内容点此:第III部分内容点此) 上节总结到最小化经验风险不是学习问题的解决方案,并且判断学习问题可解的条件是求: 在本节中将深度调查研究该概率,看其是否可以真的很小. 独立同分布为了使理论分析向前发展,作出一些假设以简化遇到的情况,并能使用从假设得到的理论推理出实际情况. 我们对学习问题作出的

机器学习理论研究方法探讨

本文译自:http://www.alexirpan.com/2016/07/17/ml-sleep.html,原文标题<The Machine Learning Casino>,译文供您参考. 一.机器学习理论研究机器学习是一种能使计算机半自主地对数据进行分析,并从中学习经验的算法. 机器学习理论的研究听上去就好像做这么一件事,让我们的研究人员去深刻探索,提高计算机学习数据集的效率的方法. 事实上,机器学习理论的研究可以在我们的生活的每时每刻找到影子.就好像你在不断的进行一场赌博,只不过你的

知乎张瑞: 浅析机器学习理论与实践 | 业界对话

张瑞,研究生毕业于北京邮电大学,毕业后一直从事搜索引擎及自然语言处理方向的研发工作.曾就职于百度及豌豆荚.现任知乎机器学习团队负责人. 特约记者丨杨润琦(南京大学),刘冲(北京邮电大学) 杨润琦:能否和我们介绍一下知乎的机器学习团队?目前主要负责哪些方面的工作和任务呢? 张瑞:我们团队是一个横向的功能团队,也就是说整个知乎平台上用到的机器学习场景都会交给我们团队负责,也包括建设一套完整的机器学习栈.我们将所有的应用场景分为两大模块,六大方向.两大模块分别是基础数据和基础技术,另一个是和业务相关的

Photoshop简单制作机器手臂效果后期教程

给各位Photoshop软件的使用者们来详细的解析分享一下简单制作机器手臂效果的后期教程. 教程分享: 效果图: 步骤1:新建画布,设置参数(宽9cm 高13cm),将背景填充为黄色,而后单击"创建新的填充或调整图层"按钮,选择"渐变填充"选项设置参数,并添加蒙版适当的涂抹,设置"不透明度"为80% 步骤2:新建图层1,使用柔角画笔绘制白色光影效果,并设置图层混合模式为"叠加".拖进&

PS合成一只简单的机器蜜蜂

效果图虽然简单,不过非常有创意.思路:截取仪表上的一些小齿轮,小部件放到蜜蜂的局部,通过一些变换组合成机械效果;后期处理细节,增加阴影等即可. 最终效果 1.我想最难的部分就是选择组成蜜蜂身体部分的金属锯齿啦~我们将要选择如下图所示的红色区域哦~这里用的是快速蒙版,但你可以用自己的方法将它们抠取出来. 2.新建1500×1500 px,72分辨率的图层,然后将蜜蜂素材放置进去~将如下图所示的金属部分放置到蜜蜂的身上,摆放的位置一定要看起来很自然,如果不自然,我们就需要适当的调整位置啦. 3.

机器学习必备手册

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习必备手册(下)--博客整理系列(六) 机器学习是计算机科学的一个子领域,在人工智能领域,机器学习逐渐发展成模式识别和计算科学理论的研究.从2016年起,机器学习到达了不合理的火热巅

避免过度拟合之正则化（转）

避免过度拟合之正则化 "越少的假设,越好的结果" 商业情景: 当我们选择一种模式去拟合数据时,过度拟合是常见问题.一般化的模型往往能够避免过度拟合,但在有些情况下需要手动降低模型的复杂度,缩减模型相关属性. 让我们来考虑这样一个模型.在课堂中有10个学生.我们试图通过他们过去的成绩预测他们未来的成绩.共有5个男生和5个女生.女生的平均成绩为60而男生的平均成绩为80.全部学生的平均成绩为70. 现在有如下几种预测方法: 1 用70分作为全班成绩的预测 2 预测男生的成绩为80分,而女生

揭秘深度学习成功的数学原因：从全局最优性到学习表征不变性

近年来,深度学习大获成功,尤其是卷积神经网络(CNN)在图像识别任务上的突出表现.然而,由于黑箱的存在,这种成功一度让机器学习理论学家颇感不解.本文的目的正是要揭示深度学习成功的奥秘.通过围绕着深度学习的三个核心要素--架构.正则化技术和优化算法,并回顾近期研究,作者为深层网络的若干属性,如全局最优性.几何稳定性.学习表征不变性,提供了一个数学证明. 论文:Mathematics of Deep Learning 论文链接:https://arxiv.org/abs/1712.04741 摘要:

猜你喜欢

实例分析百度谷歌对原创信息的排名

一直都在关注搜索引擎,尤其是对原创信息在搜索引擎的收录及权重有些疑问.最近就利用了自己的网站分析师,认证分析了一下搜索引擎对原创信息的重视度.分析结果让我大吃一惊,在事实面前让我又加深了对各大搜索引擎 ...

百度站长平台外链工具升级版11月21日开启内测

A5站长网报道:百度站长平台外链工具升级版将在11月21日开启内测,内测开启时将会邀请行业内资深人士进行优先体验,同时在百度站长平台官网也提供了申请内测资格的方式. 据了解,站长平台外链工具beta版 ...

C#编程利器之二:结构与枚举(Structure and enumeration)

在上一篇文章中,介绍了类如何封装程序中的对象.而实际中,出了类可以封装对象外,结构和枚举也可以封装一些对象,本文将着重介绍结构和枚举这两个知识点的相关应用. 一. 结构(Structure) 什么是 ...

找出Java程序内存溢出的元凶

我曾经在刚入行的时候做过一个小的swing程序,用到了java SE,swing,Thread等东东,当初经验少也没有做过严格的性能测试,布到生产环境用了一段时间后发现那个小程序有时候会抛 java ...

特殊情况：Java的主类型

有一系列类需特别对待:可将它们想象成"基本"."主要"或者"主"(Primitive)类型,进行程序设计时要频繁用到它们.之所以要特别对待, ...

通过sql脚本查看Oracle中是否有锁表

1.查看是否有锁表的sql select 'blocker('||lb.sid||':'||sb.username||')-sql:'|| qb.sql_text blockers, 'waiter ...

如何用Lightroom修出航拍大片

如何用Lightroom修出航拍大片 1.压暗天空亮度首先,将图片套用第三套预设(页面最后有下载链接),快速定下色彩基调. 原片这时候我们发现天空有过曝的迹象,于是使用LR界 ...

photoshop给图片批量加水印

许多朋友准备了很多精美的图片,发布到网上,眼睁睁看着自己的作品被别人盗用,如何做可以使你的图片被很好的利用呢,看看下面的教材 1:打开你的水印文件,如下图 2:复制水印(怎么复制,看下图,Ctrl+C ...

PS实例调色练习：色彩过滤

不知道应该叫什么效果,漂亮就行,忙了好长一阵子了,终于有时间闲下来随心所欲地调下图玩,不说费话了,来分享下我的过程: 原图和效果图: 步骤: 1.打开图片,按Ctrl+J复制一层,并隐藏 2.选背 ...

Focusky怎么设置动画播放顺序

Focusky怎么设置动画播放顺序: 1.打开工程,点击"动画"按钮进入动画编辑界面. 2.进入动画编辑界面后,自定义对象动画按指定顺序依次播放顺序. 进入动画编辑界面后,选中 ...

MySQL之MariaDB启用审计插件配置详解

对于MySQL Percona MariaDB三家都有自己的审计插件,但是呢,MySQL的审计插件是只有企业版才有的,同时也有很多第三方的的MySQL的审计插件,而Percona和MariaDB都是G ...

双缓冲DoubleBuffered解决闪烁问题

一.使用默认的双缓冲 1 在应用程序中使用双缓冲的最简便的方法是使用 .NET Framework 为窗体和控件提供的默认双缓冲.通过将 DoubleBuffered 属性设置为 true. ...

Redhat关闭SELinux和防火墙的办法

Redhat使用了SELinux来增强安全,关闭的办法为: 1. 永久有效修改 /etc/selinux/config 文件中的 SELINUX="" 为 disabled ,然 ...

Serializable与Parcelable传递对象详解(activity间传递对象方式)

先了解什么是序列化? 序列化是什么: 序列化就是将一个对象的状态(各个属性量)保存起来,然后在适当的时候再获得. 序列化分为两大部分:序列化和反序列化.序列化是这个过程的第一部分,将数据分解成字节 ...

Android开发之各种双向侧滑菜单的实现

转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/39670935,本文出自:[张鸿洋的博客] 1.概述关于自定义控件侧滑已经写了两 ...

CYQ.DBImport 数据库反向工程及批量导数据库工具 V1.0 发布

[Tip:2011-05-19 14:55左右修正个别Bug后重新上传了一下,之前下载的新重新下载.] 杂七几句: 自从购买VPS之后,打算将秋色园QBlog 搬迁,也想把目前的Access数据 ...

在KVM切换器中融入安全内核提供间谍级别的应用虚拟化

本文讲的是在KVM切换器中融入安全内核提供间谍级别的应用虚拟化,澳大利亚智库Data61及该国国防科技集团(DSTG),炮制出了偏执狂都喜欢的应用展示技术--通过将一块ARM CPU和安全微内核烧 ...

c-产生随机的超递增数列

问题描述产生随机的超递增数列超递增数列是指这样一种数列,该数列的每一项都比它前面所有项加起来之和还要大.比如数列 1,2,5,10,20,50- 该数列每一项都大于前面所有项之和,因此是超递增数列 ...

gps-基于arm11完成GPS数据获取，并显示在液晶屏幕上，并进行操作界面设计。（有酬谢）

问题描述基于arm11完成GPS数据获取,并显示在液晶屏幕上,并进行操作界面设计.(有酬谢) 基于arm11完成GPS数据获取,并显示在液晶屏幕上,并进行操作界面设计. 注:最好用vs2005 wi ...

c语言编程-程序运行出来出现很多0.0000为什么呐？

问题描述程序运行出来出现很多0.0000为什么呐? 感觉自己搞不清什么时候出现整数,什么时候出现小数... 解决方案这是由于你在代码中写的运算逻辑,由于计算机原因存在着类型转换导致的解决方案二: ...

opencv-为何OpenCV中cvWaitKey(1)延时不是1ms？

问题描述为何OpenCV中cvWaitKey(1)延时不是1ms? 我写了一个三帧差分法进行运动目标检测的程序,通过 start = GetTickCount(); if(cvWaitKey(1)& ...

for循环类数组为null时崩溃.......

问题描述我做了一个档案管理,有增加删除,功能,删除把元素赋值为null,当再次删除这条信息时就会蹦了.错误信息Exceptioninthread"main"java.lang.N ...

c#-iis发布asp.net网站，手机使用流量输入公网域名无法访问，但是其他电脑可以

问题描述 iis发布asp.net网站,手机使用流量输入公网域名无法访问,但是其他电脑可以 win10搭建的iis,已做好了端口映射 1.如果手机和电脑都处在同一个路由器之下,那么是可以正常访问的,无 ...

数据安全新品问世 RSA如何解决机构需求

本文讲的是数据安全新品问世 RSA如何解决机构需求,RSA,跨国EMC公司的数据存储安全部门,在周三公布了一项新的以云端数据安全为前提的产品RSA SecurID Suite. RSA SecurlI ...

8大苹果发布会看点预测

10月23日的消息,苹果在北京时间10月23日凌晨1点将召开新品发布会,而发布会的地点依旧是苹果公司钟爱的旧金山的芳草地中心.和苹果发布会还有20分钟的时间,小编为了避免大家盲目地熬夜观看发布会,在此 ...

“云计算”遭滥用，切忌跟风需谨慎

微软雅黑,sans-serif; font-size:10.5pt">云计算作为风靡当下的概念, 随着云计算理念推广逐渐完善.在资源最大限度利用.IT成本可精确量化.实现更广泛信息交付 ...

华山医院信息中心主任：把AI与临床结合后才发现，过去做的事仅是冰山一角

"我觉得AI这东西,对医学太有诱惑力了." "当人工智能与临床相结合后才能感受到它的力量,才会发现我们能借助它做的事情太多太多.有时候甚至觉得过去十几.二十年来干的信息化 ...

华为荣耀3X 超低价格的时尚智能手机

五一果断入华为荣耀3X畅玩版仅1350元类型:原创作者:吕望旺时间:2014-04-30 18:00:00 [手机中国合肥华为荣耀畅玩版报价]华为荣耀3X畅玩版是一款拥有超低价格的时尚智能手机 ...

给推荐个国外用springmvc+mybatis的项

问题描述在研究spring mvc 和 mybatis,想这个项目观摩下.,给推荐个国外用springmvc+mybatis的项目,非常感谢. 解决方案 http://source.nexaweb. ...

iPad2两日售100万部3天即遭破解水货价暴涨

据海外媒体报道,苹果公司的新款平板电脑iPad2在美国上市两日内即创下了一百万部的销售佳绩. 美国投资机构Wedbush Securities分析师Scott Sutherland接受媒体采访时说道: ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.027 s.