深度学习网络大杀器之Dropout——深入解析Dropout

更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud

过拟合是深度神经网（DNN）中的一个常见问题：模型只学会在训练集上分类，这些年提出的许多过拟合问题的解决方案；其中dropout具有简单性并取得良好的结果：

Dropout

上图为Dropout的可视化表示，左边是应用Dropout之前的网络，右边是应用了Dropout的同一个网络。

Dropout的思想是训练整体DNN，并平均整个集合的结果，而不是训练单个DNN。DNNs是以概率P舍弃部分神经元，其它神经元以概率q=1-p被保留，舍去的神经元的输出都被设置为零。

引述作者：

在标准神经网络中，每个参数的导数告诉其应该如何改变，以致损失函数最后被减少。因此神经元元可以通过这种方式修正其他单元的错误。但这可能导致复杂的协调，反过来导致过拟合，因为这些协调没有推广到未知数据。Dropout通过使其他隐藏单元存在不可靠性来防止共拟合。

简而言之：Dropout在实践中能很好工作是因为其在训练阶段阻止神经元的共适应。

Dropout如何工作

Dropout以概率p舍弃神经元并让其它神经元以概率q=1-p保留。每个神经元被关闭的概率是相同的。这意味着：

假设：

h(x)=xW+b，d_i维的输入x在d_h维输出空间上的线性投影；

a(h)是激活函数

在训练阶段中，将假设的投影作为修改的激活函数：

其中D=(X₁,...,X_dh)是d_h维的伯努利变量Xi，伯努利随机变量具有以下概率质量分布：

其中k是可能的输出。

将Dropout应用在第i个神经元上：

其中P(X_i=0)=p

由于在训练阶段神经元保持q概率，在测试阶段必须仿真出在训练阶段使用的网络集的行为。

为此，作者建议通过系数q来缩放激活函数：

训练阶段：

测试阶段：

Inverted Dropout

与dropout稍微不同。该方法在训练阶段期间对激活值进行缩放，而测试阶段保持不变。

倒数Dropout的比例因子为，因此：

训练阶段：

测试阶段：

Inverted Dropout是Dropout在各种深度学习框架实践中实现的，因为它有助于一次性定义模型，并只需更改参数（保持/舍弃概率）就可以在同一模型上运行训练和测试过程。

一组神经元的Dropout

n个神经元的第h层在每个训练步骤中可以被看作是n个伯努利实验的集合，每个成功的概率等于p。

因此舍弃部分神经元后h层的输出等于：

因为每一个神经元建模为伯努利随机变量，且所有这些随机变量是独立同分布的，舍去神经元的总数也是随机变量，称为二项式：

n次尝试中有k次成功的概率由概率质量分布给出：

当使用dropout时，定义了一个固定的舍去概率p，对于选定的层，成比例数量的神经元被舍弃。

从上图可以看出，无论p值是多少，舍去的平均神经元数量均衡为np：

此外可以注意到，围绕在p = 0.5值附近的分布是对称。

Dropout与其它正则化

Dropout通常使用L2归一化以及其他参数约束技术。正则化有助于保持较小的模型参数值。

L2归一化是损失的附加项，其中λ是一种超参数、F(W;x)是模型以及ε是真值y与和预测值y^之间的误差函数。

通过梯度下降进行反向传播，减少了更新数量。

Inverted Dropout和其他正则化

由于Dropout不会阻止参数增长和彼此压制，应用L2正则化可以起到作用。

明确缩放因子后，上述等式变为：

可以看出使用Inverted Dropout，学习率是由因子q进行缩放。由于q在[0,1]之间，η和q之间的比例变化：

将q称为推动因素，因为其能增强学习速率，将r(q)称为有效的学习速率。

有效学习速率相对于所选的学习速率而言更高：基于此约束参数值的规一化可以帮助简化学习速率选择过程。

总结

1 Dropout存在两个版本：直接（不常用）和反转

2 单个神经元上的dropout可以使用伯努利随机变量建模

3 可以使用二项式随机变量来对一组神经元上的舍弃进行建模

4 即使舍弃神经元恰巧为np的概率是低的，但平均上np个神经元被舍弃。

5 Inverted Dropout提高学习率

6 Inverted Dropout应该与限制参数值的其他归一化技术一起使用，以便简化学习速率选择过程

7 Dropout有助于防止深层神经网络中的过度拟合

作者介绍：Paolo Galeone，计算机工程师以及深度学习研究者，专注于计算机视觉问题的研究

Blog：https://pgaleone.eu/

Linkedin：https://it.linkedin.com/in/paolo-galeone-6782b311b

Twitter：https://twitter.com/paolo_galeone

以上为译文

文章原标题《Analysis of Dropout》，作者：Paolo Galeone，译者：海棠，审校：我是主题曲哥哥。

文章为简译，更为详细的内容，请查看原文

时间： 2024-09-14 23:01:07

深度学习网络大杀器之Dropout——深入解析Dropout的相关文章

深度学习网络大杀器之Dropout（II）——将丢弃学习视为集成学习之我见

首发地址:https://yq.aliyun.com/articles/110002 更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 关于dropout的分析,可以见博主的另外一篇文章: <深度学习网络大杀器之Dropout--深入解析Dropout> 1.引言随着2012年Hiton的文章<ImageNet classification with deep convolutional neural networks>[1]的问世,掀开了学

【深度学习框架大PK】褚晓文教授：五大深度学习框架三类神经网络全面测评（23PPT）

香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告,并在2017年年初发布更新,引起广泛关注.见新智元报道< 基准评测 TensorFlow.Caffe.CNTK.MXNet.Torch 在三类流行深度神经网络上的表现(论文)>,2017年初版本的评测的主要发现可概括如下: 总体上,多核CPU的性能并无很好的可扩展性.在很多实验结果中,使用16核CPU的性能仅比使用4核或8核稍好.TensorFlow在CPU环境有相对较好的可扩展性. 仅用一块GPU卡的话,FCN上Caffe

Mellanox智能网络助力美团点评深度学习和大数据平台

9月13日(北京)高性能计算.数据中心端到端互连方案提供商Mellanox今日宣布,国内最大的生活服务电商平台美团点评现已在其人工智能和大数据平台部署 Mellanox 端到端25GbE以太网络. 近来随着移动互联网的飞速发展,通过线上完成消费决策及交易,线下实际消费的O2O模式也吸引了越来越多的用户.作为国内最大的生活服务电商平台,美团点评已经为6亿注册用户.超450万合作商户提供各类生活娱乐相关的服务.美团点评通过对海量数据的挖掘及分析提供个性化的服务,更快满足用户需求;并借助美团云深度学习

智能时代，深度学习和大数据成了密不可分的一对儿

人工智能时代,深度学习和大数据成了密不可分的一对儿.深度学习可以从大数据中挖掘出以往难以想象的有价值的数据.知识或规律.简单来说,有足够的数据作为深度学习的输入,计算机就可以学会以往只有人类才能理解的概念或知识,然后再将这些概念或知识应用到之前从来没有看见过的新数据上. <智能时代>的作者吴军博士说:"在方法论的层面,大数据是一种全新的思维方式.按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变." 谷歌的围棋程序AlphaGo已经达到了人类围棋选手无法达到的境界

深度学习与大数据解析

深度学习的概念于2006年提出,是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像.声音和文本,已被应用于许多领域,如人脸识别.语音识别等.深度学习已成为人工智能领域研究的热点. 随着人工智能的迅速发展,通过深度学习,用计算机来模拟人的思考.推理.规划等思维过程和智能行为取得了长足进步.人工智能的重要特征就是拥有学习的能力,也就是说系统的能力会随着经验数据的积累不断演化和提升.近年来,正是得益于深度学习为大数据处理开辟了有效途径,

2016深度学习统治人工智能？深度学习十大框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面.新智元在 2015 年底发过一篇文章<深度学习会让机器学习工程师失业吗?>,引起很大的反响.的确,过去一年的时间里,深度学习正在改变越来越多的人工智能领域.Google DeepMind 工程师 Jack Rae 预测说,过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津. 深度学习,或者更宽泛地说--使用联结主义

2017年深度学习十大趋势预测

本文作者曾经多次预测了技术发展的趋势,最近的一次预测是"2011年软件发展的趋势与预测".10项预言中,准确地命中了6项,比如JavaScript VM.NoSQL.大数据分析.私有云.Scala语言等等.今年,他对深度学习的发展趋势做了一个预测,主要是研究领域的趋势预测,而不是工业界的应用. 以下是作者对2017年度的预测内容. 硬件将加速倍增摩尔定律作者根据其观察到Nvidia和Intel的发展动态,认为这是显而易见的趋势.由于Nvidia具有完整的深度学习生态系统,它们在整个2

中国人工智能学会通讯——迎接深度学习的“大”挑战(下) 1.1 深度学习的训练方法和技巧

摘要:本部分主要介绍了深度学习的训练方法和技巧.深度学习的挑战和应对方法等问题. 最后结合眼下 AI 的研究进展,对深度学习领域深刻的"吐槽"了一番,妙趣横生且发人深省. 1.1 深度学习的训练方法和技巧前面提到的 BN 方法还不能解决所有的问题. 因为即便做了白化,激活函数的导数的最大值也只有 0.25,如果层数成百上千,0.25 不断连乘以后,将很快衰减为 0. 所以后来又涌现出一些更加直接.更加有效的方法.其基本思路是在各层之间建立更畅通的渠道,让信息流绕过非线性的激

关于深度学习：大神Yoshua Bengio提供了26条经验

雷锋网按:本文译者刘翔宇,中通软开发工程师,关注机器学习.神经网络.模式识别. 1.分布式表示(distributed representations)的需要在Yoshua Bengio开始的讲座上,他说"这是我重点讲述的幻灯片".下图就是这张幻灯片: 假设你有一个分类器,需要分类人们是男性还是女性,佩戴眼镜还是不佩戴眼镜,高还是矮.如果采用非分布式表示,你就在处理2*2*2=8类人.为训练精准度高的分类器,你需要为这8类收集足够的训练数据.但是,如果采用分布式表示,每一个属性都会在