避免过度拟合之正则化(转)

避免过度拟合之正则化

“越少的假设,越好的结果”

商业情景:

当我们选择一种模式去拟合数据时,过度拟合是常见问题。一般化的模型往往能够避免过度拟合,但在有些情况下需要手动降低模型的复杂度,缩减模型相关属性。

让我们来考虑这样一个模型。在课堂中有10个学生。我们试图通过他们过去的成绩预测他们未来的成绩。共有5个男生和5个女生。女生的平均成绩为60而男生的平均成绩为80.全部学生的平均成绩为70.

现在有如下几种预测方法:

1 用70分作为全班成绩的预测

2 预测男生的成绩为80分,而女生的成绩为60分。这是一个简单的模型,但预测效果要好于第一个模型。

3 我们可以将预测模型继续细化,例如用每个人上次考试的成绩作为下次成绩的预测值。这个分析粒度已经达到了可能导致严重错误的级别。

从统计学上讲,第一个模型叫做拟合不足,第二个模型可能达到了成绩预测的最好效果,而第三个模型就存在过度拟合了。

接下来让我们看一张曲线拟合图

上图中Y与自变量X之间呈现了二次函数的关系。采用一个阶数较高的多项式函数对训练集进行拟合时可以产生非常精确的拟合结果但是在测试集上的预测效果比较差。接下来,我们将简要的介绍一些避免过度拟合的方法,并将主要介绍正则化的方法。

避免过度拟合的方法

1 交叉验证: 交叉验证是一轮验证的最简单的形式,每次我们将样本等分为k份,留一份作为测试样本并将其他作为训练样本。通过对训练样本的学习得到模型,将模型用于预测测试样本。循环上述步骤,使每一份样本都曾作为测试集。为了保持较低的方法,k值较大的交叉验证模型比较受青睐。

2 停止法: 停止法为初学者避免过度拟合提供了循环次数的指导

3 剪枝法: 剪枝法在GART (决策树)模型中应用广泛。它用于去掉对于预测提升效果较小的节点。

4 正则化: 这是我们将详细介绍的方法。该方法对目标函数的变量个数引入损失函数的概念。也就是说,正则化方法通过使很多变量的系数为0而降低模型的维度,减少损失。

正则化基础

给定一些自变量X,建立一个简单的因变量y与X之间的回归模型。回归方程类似于:

y = a1x1 + a2x2 + a3x3 + a4x4 .......

在上述方程中a1, a2, a3 …为回归系数,而x1, x2, x3 ..为自变量。给定自变量和因变量,基于目标函数估计回归系数a1, a2 , a3 …。对于线性回归模型目标函数为:

如果存在大量的x1 , x2 , x3 因变量,则可能出现过度拟合的问题。因此我们引入新的惩罚项构成新的目标函数来估计回归系数。在这种修正下,目标函数变为:

方程中的新加项可以是回归系数的平方和乘以一个参数λ。 如果λ=0 过度拟合上限的情景。λ趋于无穷则回归问题变为求y的均值。最优化λ需要找到训练样本和测试样本的的预测准确性之间的一个平衡点。

理解正则化的数学基础

存在各种各样的方法计算回归系数。一种非常常用的方法为坐标下降法。坐标下降是一种迭代方法,在给定初始值后不断寻找使得目标函数最小的收敛的回归系数值。因此我们集中处理回归系数的偏导数。在没有给出更多的导数信息前,我直接给出最后的迭代方程:

 (1)

这里的θ是估计的回归系数,α为学习参数。现在我们引入损失函数,在对回归系数的平方求偏导数以后,将转化为线性形式。最终的迭代方程如下:

 (2)

如果仔细观察该方程你会发现,ϑ每次迭代的开始点略小于之前的迭代结果。这是(1)与(2)两个迭代方程的唯一区别。而迭代方程(2)试图寻找绝对值最小的收敛的ϑ值。

结束语

在这篇文章中我们简单的介绍了正则化的思想。当然相关的概念远比我们介绍的深入。在接下来的一些文章中我们会继续介绍一些正则化的概念。

原文作者: TAVISH SRIVASTAVA

翻译: F.xy

原文链接:http://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/

http://www.cnblogs.com/yymn/p/4646383.html

时间: 2024-09-21 13:23:38

避免过度拟合之正则化(转)的相关文章

神经网路-神经网络的过度拟合问题

问题描述 神经网络的过度拟合问题 神经网络的过度拟合是因为隐层个数大于样本的变量个数,还是因为神经元的个数大于样本个数? when the neural element number n of neural networks is larger than the sample size m, the overfitting problem arises since there are more parameters than actual data.(more variable than con

机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(三)| 干货

雷锋网按:本文是介绍用TensorFlow构建图像识别系统的第三部分. 在前两部分中,我们构建了一个softmax分类器来标记来自CIFAR-10数据集的图像,实现了约25-30%的精度. 因为有10个不同可能性的类别,所以我们预期的随机标记图像的精度为10%.25-30%的结果已经比随机标记的结果好多了,但仍有很大的改进空间.在这篇文章中,作者Wolfgang Beyer将介绍如何构建一个执行相同任务的神经网络.看看可以提高预测精度到多少!雷锋网(公众号:雷锋网)对全文进行编译,未经许可不得转

机器学习之正则化图文讲解

1. The Problem of Overfitting 1 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图. 如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型.我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓.因此线性回归并没有很好拟合训练数据. 我们把此类情况称为欠拟合(underfitting),或者叫作叫做高偏差(bias). 这两种说法大致相似,都表示没有很好地拟合训练数据.高偏差这个词是

激活引入非线性,池化预防过拟合(深度学习入门系列之十二)

系列文章: 一入侯门"深"似海,深度学习深几许(深度学习入门系列之一) 人工"碳"索意犹尽,智能"硅"来未可知(深度学习入门系列之二) 神经网络不胜语,M-P模型似可寻(深度学习入门系列之三) "机器学习"三重门,"中庸之道"趋若人(深度学习入门系列之四) Hello World感知机,懂你我心才安息 (深度学习入门系列之五) 损失函数减肥用,神经网络调权重(深度学习入门系列之六) 山重水复疑无路,最快下降

模型选择、特征选择及贝叶斯正则化

1 问题      模型选择问题:对于一个学习问题,可以有多种模型选择.比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归.那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?      还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数? 形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM.logistic回归.神经网络等模型都包含在M中. 2 交叉验证(Cross validation)      我们的第一个任务就是要从M中选择最好

新颖训练方法——用迭代投影算法训练神经网络

首发地址:https://yq.aliyun.com/articles/72738 作者介绍:Jesse Clark 研究相位恢复的物理学家.数据科学家,有着丰富的建设网站与设计手机应用的经验,在创业公司有着丰富的经验,对创业有着极大的热情.  Github: https://github.com/jn2clark Linkedin: http://www.linkedin.com/in/j3ss3cl4rk 相位恢复(PR)关心的是在给定幅度信息以及受到实空间限制下,找到复值函数(通常在傅立叶

《大数据分析原理与实践》一一 3.1 回归分析

3.1 回归分析3.1.1 回归分析概述 1.回归分析的定义 回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系.如果只需考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题.若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题.本小节重点讨论多元回归. 2.回归分析的数学模型 多元回归分析研究因变量Y与m个自变量x1,x2,-,xm的相关关系,而且总是假设因变量Y为随机变量,而x1,x2,-

数据科学家需要了解的45个回归问题测试题(附答案)

简介 回归技术不仅包含线性和逻辑回归方面知识,它还体现了多种建模和分析变量的能力.此项技能测试是为了评估你在众多回归技术方面的概念和运用能力. 此次共有1845名选手参与测试,我能确信,这是在回归领域内公认的最佳测试集. 如果你没能参与,确实是错过了实时考试的机会,那也不必遗憾,这里将公布考题和答案,你可以看看自己掌握了多少. 总体分数 下图展示了整体分数的分布情况,可以帮助你评估自己的成绩. 你能够在此处(https://datahack.analyticsvidhya.com/contest

深度学习网络大杀器之Dropout——深入解析Dropout

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 过拟合是深度神经网(DNN)中的一个常见问题:模型只学会在训练集上分类,这些年提出的许多过拟合问题的解决方案:其中dropout具有简单性并取得良好的结果: Dropout 上图为Dropout的可视化表示,左边是应用Dropout之前的网络,右边是应用了Dropout的同一个网络. Dropout的思想是训练整体DNN,并平均整个集合的结果,而不是训练单个DNN.DNNs是以概率P舍弃部分神经元,其它神经元