蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性

生成对抗网络(GAN)是一种强大的生成模型,但是自从2014年Ian
Goodfellow提出以来,GAN就存在训练不稳定的问题。最近提出的 Wasserstein
GAN(WGAN)在训练稳定性上有极大的进步,但是在某些设定下仍存在生成低质量的样本,或者不能收敛等问题。

近日,蒙特利尔大学的研究者们在WGAN的训练上又有了新的进展,他们将论文《Improved
Training of Wasserstein
GANs》发布在了arXiv上。研究者们发现失败的案例通常是由在WGAN中使用权重剪枝来对critic实施Lipschitz约束导致的。在本片论文中,研究者们提出了一种替代权重剪枝实施Lipschitz约束的方法:惩罚critic对输入的梯度。该方法收敛速度更快,并能够生成比权重剪枝的WGAN更高质量的样本。

以下为雷锋网AI科技评论据论文内容进行的部分编译。

论文摘要

生成对抗网络(GAN)将生成问题当作两个对抗网络的博弈:生成网络从给定噪声中产生合成数据,判别网络分辨生成器的的输出和真实数据。GAN可以生成视觉上吸引人的图片,但是网络通常很难训练。前段时间,Arjovsky等研究者对GAN值函数的收敛性进行了深入的分析,并提出了Wasserstein

GAN(WGAN),利用Wasserstein距离产生一个比Jensen-Shannon发散值函数有更好的理论上的性质的值函数。但是仍然没能完全解决GAN训练稳定性的问题。

雷锋网(公众号:雷锋网)了解到,在该论文中,蒙特利尔大学的研究者对WGAN进行改进,提出了一种替代WGAN判别器中权重剪枝的方法,下面是他们所做的工作:

  1. 通过小数据集上的实验,概述了判别器中的权重剪枝是如何导致影响稳定性和性能的病态行为的。
  2. 提出具有梯度惩罚的WGAN(WGAN with gradient penalty),从而避免同样的问题。
  3. 展示该方法相比标准WGAN拥有更快的收敛速度,并能生成更高质量的样本。
  4. 展示该方法如何提供稳定的GAN训练:几乎不需要超参数调参,成功训练多种针对图片生成和语言模型的GAN架构

WGAN的critic函数对输入的梯度相比于GAN的更好,因此对生成器的优化更简单。另外,WGAN的值函数是与生成样本的质量相关的,这个性质是GAN所没有的。WGAN的一个问题是如何高效地在critic上应用Lipschitz约束,Arjovsky提出了权重剪枝的方法。但权重剪枝会导致最优化困难。在权重剪枝约束下,大多数神经网络架构只有在学习极其简单地函数时才能达到k地最大梯度范数。因此,通过权重剪枝来实现k-Lipschitz约束将会导致critic偏向更简单的函数。如下图所示,在小型数据集上,权重剪枝不能捕捉到数据分布的高阶矩。

由于在WGAN中使用权重剪枝可能会导致不良结果,研究者考虑在训练目标上使用Lipschitz约束的一种替代方法:一个可微的函数是1-Lipschitz,当且仅当它的梯度具有小于或等于1的范数时。因此,可以直接约束critic函数对其输入的梯度范数。新的critic函数为:

实验结果 图&表

研究者们在CIFAR-10数据集上将梯度惩罚的WGAN与权重剪枝的WGAN的训练进行了对比。其中橙色曲线的梯度惩罚WGAN使用了与权重剪枝WGAN相同的优化器(RMSProp)和相同的学习率。绿色曲线是使用了Adam优化器和更高学习率的梯度惩罚WGAN。可以看到,即使使用了同样的优化器,该论文中的方法也能更快的收敛并得到更高的最终分数。使用Adam优化器能进一步提高性能。

为了展示该方法训练过程中的稳定性,研究者在LSUN卧室训练集上训练了多种不同的GAN架构,除了DCGAN外,研究者还选择了另外六种较难训练的架构,如下图所示:

对于每种架构,研究者都使用了四种不同的GAN过程:梯度惩罚的WGAN,权重剪枝的WGAN,DCGAN,以及最小二乘GAN。对于每种方法,都使用了推荐的优化器超参数默认设置:

  •  WGAN with gradient penalty: Adam (α = .0001, β1 = .5, β2 = .9)
  •  WGAN with weight clipping: RMSProp (α = .00005)
  •  DCGAN: Adam (α = .0002, β1 = .5)
  •  LSGAN: RMSProp (α = .0001) [chosen by search over α = .001, .0002, .0001]

上图显示的样本都是经过200k次迭代的结果。前为止,梯度惩罚的WGAN是唯一一种使用同一种默认超参数,并在每个架构下都成功训练的方法。而所有其他方法,都在一些架构下不稳定。

使用GAN构建语言模型是一项富有挑战的任务,很大程度上是因为生成器中离散的输入输出序列很难进行反向传播。先前的GAN语言模型通常凭借预训练或者与监督最大似然方法联合训练。相比之下,使用该论文的方法,不需采用复杂的通过离散变量反向传播的方法,也不需要最大似然训练或fine-tune结构。该方法在Google
Billion Word数据集上训练了一个字符级的GAN语言模型。生成器是一个简单的CNN架构,通过1D卷积将latent
vector转换为32个one-hot字符向量的序列。

下图展示了模型的一个例子。目前为止,这是第一个完全使用对抗方法进行训练,而没有使用监督的最大似然损失的生成语言模型。其中有一些拼写上的错误,这可能是由于模型是每个字符独立输出的。

该文提供了一种训练GAN的稳定的算法,能够更好的探索哪种架构能够得到最好的生成模型性能。该方法也打开了使用大规模图像或语言数据集训练以得到更强的模型性能的大门。

本论文在github上开源了代码:github

本论文同时也提供了详细的数学证明,以及更多的示例,进一步了解请阅读原论文:Improved Training of Wasserstein GANs,雷锋网编译

本文作者:高云河

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-27 07:06:01

蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性的相关文章

蒙特利尔大学Bengio团队携手多伦多大学带来最新成果:方差正则化对抗学习

雷锋网消息,由多伦多大学与蒙特利尔大学的Karan Grewal.R Devon Hjelm.Yoshua Bengio三人近日合作发表的文章<Variance Regularizing Adversarial Learning>提出了一种方差正则化对抗学习方法(Variance Regularizing Adversarial Learning, VGAL).相比以往的对抗生成网络(GAN),VGAL 可以使鉴别器具有更加平滑输出分布特性,并且在真样本分布与生成样本分布间设定一定的混叠区间,

合理挖掘用户搜索的关键词将极大提高你的网站流量

有几天没有写文章了,看看自己博客的关键词都不同程度上有了下降,看来做SEO真是一个长期的过程和持续的过程,三天打鱼两天晒网的做法是行不通了.做为一名站长,每天分析网站的统计数据是必做的功课,从这些分析数据中能发现网站的一些问题和提升方法,今天新疆SEO站长给大家说说怎么样通过分析网站统计数据提高网站的文章流量,那就是合理挖掘用户搜索的关键词将极大提高你的网站流量.以站长自己的博客站为例. 这个新疆SEO博客上线一年多了,现在每天的流量基本上保持在日30独立ip的访问量上,对于一个指数不到100的

降低CPU温度 提高电脑系统稳定性

随着计算机技术的发展,CPU的工作频率越来越高,发热也越来越厉害.CPU厂家都建议对CPU使用"散热片+风扇"散热,但是,在使用了散热片和风扇后,散热效果还不是很理想,因CPU超频导致发热量过大而死机的现象屡见不鲜. 笔者曾接修一台由主板为Intel,Cyrix6X86/133MHz/8M/2.1G配置的PC机,DOS环境下运行正常,而进入Windows时"死机",这时摸CPU非常烫手,但CPU的散热片及风扇均正常,测CPU的工作电压也正确.试将CPU频率由133M

提高无线网络稳定性的技巧

随着无线技术的飞速发展,家庭无线网络已经从802.11b的11Mbps发展到了802.11g的54Mbps,更有甚者很多对无线覆盖面和传输速度有特别要求的个人用户采用了更先进的扩展54M和108Mbps网络. 虽然技术上可以实现高速度的无线传输,包括上internet外网与局域网各个计算机之间的数据传输,但是无线信号和传输速度却是由很多客观和外界因素制约的.那么如何最大限度的提高无线网络的稳定性和传输速度呢? 今天就由笔者为各位介绍几种个人总结的小技巧,希望能对你们使用的无线网络性能起一些作用.

Windows7中如何提高系统文件的稳定性

众所周知,微软操作系统文件是经常被木马.病毒等程序所关注的对象.有时候用户也不会在不经意的情况下破坏系统文件.系统不稳定大部分情况下都是由于系统文件遭受到破坏所引起的.在Windows7中这个系统文件的稳定性有了不少的改善. 在谈这个话题之前,首先系统管理员需要明白一点,就是微软操作系统中的系统文件不管是操作系统安装时的必需文件,而且还包括一些驱动程序.微软操作系统对硬件的支持力度要比Linux等开源操作系统强的多.在Windows7操作系统中,一进攻可以检测大多数的硬件,并且在安装过程中会自动

如何增加网站有效高质量外链 提高外链稳定性

互联网上这类文章,也许大家都看的多了,但是我还是想在这里给大家总结下我个人心理看法,希望大家别拍砖O(∩_∩)O哈! 说到高质量外链,作为站长来说确实非常重要,也是大家青睐的一个名词,那么我们如何增加高质量外链呢? 什么样的外链又是高质量外链呢? 外链是一个网站成功与不成功一个非常重要的因素,正是因为如此,所以,在SEOer有这么一句老话:"内容为王,外链为皇"的说法,(我也引用下名言啊)可见外链重要之处,那么,高质量外链就是重中之重的了. 说到外链,大家都会想到,论坛发帖留链,写软文

如何提高无线网络稳定性

所谓无线网络的稳定性?就是说信号应该是持续良好的,信号强弱程度应该是保持不变的,即使是信号弱的地方也不能出现一会弱一会没有一会又良好的现象.在实际应用中影响无线信号稳定性和连接速度的因素很多. 一.避免频段干扰: 频段:即"Channel"也叫信道,以无线信号作为传输媒体的数据信号传送通道.IEEE802.11b/g工作在 2.4-2.4835GHz频段(中国标准),这些频段被分为11或13个信道.在我们发布无线网络时都会选择一个频段,理论上讲同一个频段内无线网络过 多会严重影响信号的

三网主机加速引擎 三代功能助网站腾飞

三网主机加速引擎 三代功能助网站腾飞 随着互联网的高速发展,网民越来越享受其带来的快节奏生活,据调查显示,有84.3%的网民表示不愿意浪费时间才要通过互联网进行查询,而网民能否快速查询.浏览网页,其中网站的访问速度占据主要因素. 非常不巧的是,国内存在电信网通南北互通问题,严重制约网站的访问速度,从而也影响到网民的快速查询.因此,为了不影响全国各地网民的访问,各个网站都采用不同的措施来解决这个发展瓶颈,其中从提升虚拟主机性能来提高网站访问速度的方法被普遍采用. 近日,国内五强虚拟主机提供商时代互

三网主机加速引擎 三代功能助网站腾飞_IT 业界

非常不巧的是,国内存在电信网通南北互通问题,严重制约网站的访问速度,从而也影响到网民的快速查询.因此,为了不影响全国各地网民的访问,各个网站都采用不同的措施来解决这个发展瓶颈,其中从提升虚拟主机性能来提高网站访问速度的方法被普遍采用. 近日,国内五强虚拟主机提供商时代互联(www.now.cn/vhost)推出了三网主机,这款主机在解决网站访问速度的问题上就具有较明显的优势.据了解,三网主机支持电信,网通,香港机房,用户可以自由选择自由更换,这样能在三网中保证线路畅通,实现网站的快速访问. 除了