深度学习网络大杀器之Dropout(II)——将丢弃学习视为集成学习之我见

首发地址:

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud

关于dropout的分析,可以见博主的另外一篇文章:

《深度学习网络大杀器之Dropout——深入解析Dropout》

1.引言

随着2012年Hiton的文章《ImageNet classification with deep convolutional neural networks》[1]的问世,掀开了学术界深度学习快速发展的序幕;而阿法狗打败世界顶级棋手李世石后,再次经过一年多的“深山老林修炼”,强化后完胜世界围棋冠军柯洁,让人们感受到了人工智能的发展速度与工业化进程的到来。目前深度学习在很多领域的都吸引众多研究者的注意,比如目标识别、语言识别、目标检测、图像分类等,深度学习在这些领域以自动提取特征的能力表现出优异的性能。

深度学习较传统网络而言,使用的是一个非常深层的神经网络,并采用大数量的数据集。因此,在这个过程中会面临一个严峻的问题——过拟合。什么是过拟合呢?打个比方,高考前各种刷题全部能做对但理解的不好,很多答案都是强行背下来的,但是一到考场,题目稍微变一点,整个人就懵了。这是因为对于机器而言,使用算法学习数据的特征时候,样本数据的特征可以分为局部特征和全局特征,全局特征就是任何你想学习那个概念所对应的数据都具备的特征,而局部特征则是你用来训练机器的样本里头的数据专有的特征。机器在学习过程中是无法区别局部特征和全局特征的,于是机器在完成学习后,除了学习到了数据的全局特征,也可能学习得到一部分局部特征,而学习的局部特征比重越多,那么新样本中不具有这些局部特征但具有所有全局特征的样本也越多,于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升,也就是所谓的“泛化性”变差,这是过拟合会造成的最大问题。

那么为了避免过拟合的出现,通用的做法是在算法中使用正则化,这也是Hinton在文献[2]中提出的技巧“(dropout learning)”。“丢弃学习”包含两个步骤:在学习阶段,是以概率p忽略掉一些隐藏节点,这一操作减小了网络的大小;而在测试阶段,将学习的节点和那些没有被学习的节点求和后并乘以丢弃概率p计算得到网络的输出。我们发现可以将学习到的节点与没有学习的节点求和相乘概率p这一过程看作是集成学习。

集成学习(Ensemble Learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法,相对于单个分类器作为决策者,集成学习的方法就相当于多个决策者共同进行一项决策。可以看到,这与分而治之地把问题分解成若干个子问题,然后再想办法从个别解综合求得整体解是不同的。集成学习的处理过程是不是有点熟悉?是不是与丢弃学习类似?下面将具体分析如何将丢弃学习看成是集成学习。

2.模型

本文中使用的模型是老师-学生模型,并假设存在一个老师网络(teacher)能够使得学生网络(student)产生最优输出。下面介绍一些构造的老师及学生模型,并引入梯度下降算法。

从图中可以看到,老师和学生都是一个具有N个输入节点、多个隐藏节点及一个输出节点组成的软决策机。老师是由K个隐层节点组成,而学生是由K’个隐藏节点组成,每一个隐藏节点都是一个感知机,老师的第k个隐藏权重向量用 表示,学生的第k’个隐藏权重向量用表示,其中m表示学习迭代次数。在软决策机中,所有的隐藏节点到输出节点的权重固定为+1,这种网络计算得到的是隐藏层输出的多数表决结果。另外假设老师和学生的输入都是、老师的输出是,学生的输出是。其中g(.)表示的是隐藏节点的输出函数,是老师模型中第k个隐藏节点通过计算得到;同理,是学生模型中第k’个隐藏节点通过计算得到。

同时我们假设输入向量中的第i个元素是具有零均值和单位方差的独立随机变量,即输入的第i个元素来自于概率分布,并且由热力学极限假设可知:,其中<>表示求平均,||.||表示求向量的模;对于中间隐藏层而言,每一个元素Bki,k=1~K是来自于零均值和方差为1/N的概率分布。同样地,由热力学极限假设可知,这也意味着任意两个,另外服从零均值和单位方差的高斯分布。

基于以上分析,我们假设每个元素来自于零均值和方差为1/N的概率分布,统计学生的第k’个隐藏权重向量得到,这意味着任意两个。学生网络的隐藏节点输出函数g(.)与老师网络一样,统计学生的第m次迭代的权重向量得到,其中服从零均值和方差为的高斯分布。

接下来,引入随机梯度下降算法(SGD),泛化误差定义为下式:

 

并且学生的隐藏权重向量通过下式更新

 

其中η是学习步长大小,g’(x)是实际隐藏节点输出函数g(x)的导数。

通过在线学习来训练网络,每次使用的是一个新输入,因此不会发生过拟合现象。为了评估丢弃学习,预先选择整个输入经常是使用的在线方式。根据经验,当输入是N维时,如果预先选定10xN的输入就会导致过拟合的现象。

3.丢弃学习和集成学习

        3.1 集成学习(Ensemble Learning)

集成学习是使用许多的学习者(学生)来实现更好的性能,在集成学习中,每一个学生独立地学习老师模型,并且将每个输出平均以计算出集成输出sen。

其中是平均权重,是学生数量。

图2展示了计算机仿真的结果,老师和学生模型都包含两个隐藏节点,输出函数g(x)是误差函数。从图中可以看到,水平坐标轴是时间t=m/N,这里m是迭代次数,N是输入节点的维度,取N=10000,并且10xN输入经常被使用;纵坐标是均方误差(MSE),每个元素都是零均值单位方差的独立随机变量。图2中“single”是使用一个学生的实验结果,“m2”是同时使用两个学生的结果,同理可得,“m3”和“m4”分别是同时使用3个学生和4个学生的结果。正如图2所示,同时使用4个学生的效果要优于其他两种情况。

下面我们将修改集成学习,将学生模型(K’个隐藏节点)划分为Ken个网络,如图3所示(这里K’=4Ken=2),划分后的网络将单独学习老师模型,并且通过将输出平均得到整体输出sen

 

其中,是划分后的网络的输出,是第个划分网络中的第l’个隐藏输出;将等式3和等式4对比来看,当,两等式相等。

3.2丢弃学习(dropout Learning)

丢弃学习是在深度学习中被使用的一种技巧,以用来阻止过拟合的发生。如果发生过拟合,学习误差和测试误差将会变得不一样。图4展示了随机梯度下降(4(a))和应用了丢弃学习(4(b))的结果,二者对比可以看到,4(a)中发生了过拟合,而4(b)中没有发送过拟合。因此丢弃学习能够阻止过拟合的发生。

对于软决策机而言,丢弃学习的学习公式可以用下式表示:

 

其中,表示隐藏节点的集合。在学习之后,学生们的输出s(m)是通过将学习的隐藏节点输出求和后并乘以丢弃概率p得到。

 

当丢弃概率p=0.5时,上式可以看成是一个学习网络(第一项)与不学习网络(第二项)的集成。当时,等式6对应于等式4。然而,在每次迭代学习中是随机挑选的,因此,丢弃学习可以看成是在每次迭代中不同隐藏节点集合的集成学习表现。

4.结果

        4.1 将丢弃学习与集成学习作对比

在这一部分,我们将误差函数用作输出函数g(x),比较丢弃学习与集成学习。针对于集成学习,将隐藏节点设置为50;针对于丢弃学习,将隐藏节点设置为100,并设置丢弃概率p为0.5,即丢弃学习将选择50个隐藏节点作为及剩余的50个节点不被选择;输入维度N=1000,学习率η=0.01。仿真结果如图5所示,其中横纵坐标跟图4的含义相同,在图5(a)中,“single”表示使用50个隐藏节点的软决策机的结果,“ensemble”表示使用集成学习的结果;图5(b)中,“test”表示测试数据的MSE,“learn”表示学习数据的MSE。

正如图5(a)所示,集成学习实现的MSE要比单独一个网络的MSE更小,然而,丢弃学习实现的MSE比集成学习的MSE更小。因此,在每次迭代中,集成学习使用不同的隐藏节点集合比使用相同隐藏节点集合的性能更好。

4.2 将丢弃学习与带有L2范数的随机梯度下降法作对比

带有L2范数的随机梯度下降法的学习等式可以用下式表示:

 

其中,α是L2范数的系数,也称为惩罚系数。

图6展示了带有L2范数的随机梯度下降算法的结果(实验条件与图5相同):

对比图6和图5(b)可以看到,丢弃学习与带有L2范数的随机梯度下降算法的结果几乎相同。因此,丢弃学习的正则化效果与L2范数的相同。注意到,L2范数的随机梯度下降算法中,我们在每次尝试中必须选择α参数,而丢弃学习不需要调节参数。

5.结论

本文分析了可以将丢弃学习当作是集成学习。在集成学习中,可以将一个网络划分成若干个子网络,并且单独训练每个子网络。在训练学习后,将每个子网络的输出进行平均得到集成输出。另外,我们展示了丢弃学习可以看成是在每次迭代中不同隐藏节点集合的集成学习表现,同时也展示了丢弃学习有着与L2正则化一样的效果。后续将分析带有ReLU激活函数的丢弃学习的性能。

 

参考文献:

[1]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.

[2]Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4):pages. 212-223.

作者信息

Kazuyuki Hara,东京都理工大学教授,研究方向是机器学习与在线学习。

文章原标题《Analysis of dropout learning regarded as ensemble learning》,作者:Kazuyuki Hara,译者:海棠,审阅:

文章为简译,更为详细的内容,请查看原文

时间: 2024-10-29 16:21:21

深度学习网络大杀器之Dropout(II)——将丢弃学习视为集成学习之我见的相关文章

深度学习网络大杀器之Dropout——深入解析Dropout

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 过拟合是深度神经网(DNN)中的一个常见问题:模型只学会在训练集上分类,这些年提出的许多过拟合问题的解决方案:其中dropout具有简单性并取得良好的结果: Dropout 上图为Dropout的可视化表示,左边是应用Dropout之前的网络,右边是应用了Dropout的同一个网络. Dropout的思想是训练整体DNN,并平均整个集合的结果,而不是训练单个DNN.DNNs是以概率P舍弃部分神经元,其它神经元

c++-学习网络编程入门 指导

问题描述 学习网络编程入门 指导 本人接触过c/c++,想学习网络编程,不知从何入门,请大家指导下,推荐些相关的书籍,谢谢! 解决方案 可以从tcp/ip协议以及socket学起,看<计算机网络>,谢希仁编写,和windows网络编程 解决方案二: windows网络编程 解决方案三: 以实践的方式驱动,比如说去做一个简单的httpserver 解决方案四: 看书之余,要多动手.从简单的阻塞式, 到select, 再到iocp或者epoll. 然后看下一些开源的网络库, libevent, n

开发 | 为什么说集成学习模型是金融风控新的杀手锏?

当下,随着金融市场环境的迅速普惠化,新金融业务也不断下沉到更加广泛的人群.由于这部分人群的强征信数据严重缺失,金融机构纷纷涉猎多元数据包括消费.社交.行为等"大数据".然而,这些天然带有超高维.稀疏.低饱和等特点的数据也远远超出了线性回归或逻辑回归等模型所能处理的能力范围,这对传统风控提出了巨大的挑战. 集成学习模型框架很好地解决了这一问题,其核心在于针对不同领域数据使用不同机器学习或深度学习模型对数据进行处理和建模,产生一组"个体学习器",集成模型通过将多个学习器

《中国人工智能学会通讯》——9.10 集成学习的动机和优势

9.10 集成学习的动机和优势 与单一的学习模型相比,集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确.稳定和强壮的结果.在美国 NETFLIX 电影推荐比赛中,基于集成学习的推荐算法获得了第一名.在多次 KDD 和 ICDM 的数据挖掘竞赛中,基于集成学习的算法都取得了最好的成绩.集成学习算法已成功应用于智能交通中的行人检测.车辆检测等,图像和视频处理中动作检测.人物追踪.物体识别等,生物信息学蛋白质磷酸化位点预测.基因组功能预测.癌症预测

《中国人工智能学会通讯》——9.13 集成学习未来的发展趋势

9.13 集成学习未来的发展趋势 集成学习未来的发展趋势主要有集成学习模型的优化和集成学习模型的并行化两大块.在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈.如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题.集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取该数据源所蕴含有价值规律.因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据,实现多元

【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)

香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告,并在2017年年初发布更新,引起广泛关注.见新智元报道< 基准评测 TensorFlow.Caffe.CNTK.MXNet.Torch 在三类流行深度神经网络上的表现(论文)>,2017年初版本的评测的主要发现可概括如下: 总体上,多核CPU的性能并无很好的可扩展性.在很多实验结果中,使用16核CPU的性能仅比使用4核或8核稍好.TensorFlow在CPU环境有相对较好的可扩展性. 仅用一块GPU卡的话,FCN上Caffe

Mellanox智能网络助力美团点评深度学习和大数据平台

9月13日(北京)高性能计算.数据中心端到端互连方案提供商Mellanox今日宣布,国内最大的生活服务电商平台美团点评现已在其人工智能和大数据平台部署 Mellanox 端到端25GbE以太网络. 近来随着移动互联网的飞速发展,通过线上完成消费决策及交易,线下实际消费的O2O模式也吸引了越来越多的用户.作为国内最大的生活服务电商平台,美团点评已经为6亿注册用户.超450万合作商户提供各类生活娱乐相关的服务.美团点评通过对海量数据的挖掘及分析提供个性化的服务,更快满足用户需求;并借助美团云深度学习

图说2016深度学习十大指数级增长

1. 图像识别准确率的指数级增长 似乎一切都是从 2015年的 ImageNet 挑战赛开始的,当年在图像识别准确率上,机器首次超过了人类,被认为是一个里程碑式的突破. 图:ILSVRC top-5 错误率 2010年算法的图像识别错误率至少在25%左右,但到2015年,计算机图像识别错误率已经低于人类(人类水平大概是4%左右).2015年是0.03567,也就是3.5%.2016年,ImageNet 竞赛,图像识别错误率进一步下降,错误率今年的最好成绩为:平均错误率0.02991,也就是2.9

智能时代,深度学习和大数据成了密不可分的一对儿

人工智能时代,深度学习和大数据成了密不可分的一对儿.深度学习可以从大数据中挖掘出以往难以想象的有价值的数据.知识或规律.简单来说,有足够的数据作为深度学习的输入,计算机就可以学会以往只有人类才能理解的概念或知识,然后再将这些概念或知识应用到之前从来没有看见过的新数据上. <智能时代>的作者吴军博士说:"在方法论的层面,大数据是一种全新的思维方式.按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变." 谷歌的围棋程序AlphaGo已经达到了人类围棋选手无法达到的境界