(转) GAN应用情况调研

 

 

本文转自: https://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649290778&idx=1&sn=9816b862e167c4792f4251c199fcae16&chksm=8811ee5cbf66674a54e87bc3cef4937da6e5aac7599807754731ab777d359b219ac6de97616e&mpshare=1&scene=2&srcid=0219a2eBxTk422jOeh9mSxr6&from=timeline&key=d5aa2529cd509c24d0b323552433a61be5181e60aca7ca468b4ed92f98d30c3cd3305fa1695215de157c8fcd8718c461b3382c2472f5b7e1c3c686be2871009911eaf51e1d7afa86e5a87b470d3c7e5f&ascene=2&uin=MTgwOTU2NjU0MQ%3D%3D&devicetype=android-24&version=26050434&nettype=WIFI&abtest_cookie=AQABAAgAAQBChh4AAAA%3D&pass_ticket=bMwVMQ2K1X9RvTCJaBHIfrq9%2BOLAbQeQmw8cLAK33TF40zlmdma44fhN5bVmW1Vq&wx_header=1

 

 

GAN应用情况调研

2017-02-19 Gapeng CreateAMind

转自公众号  学术兴趣小组

 

 

今天我们来聊一个轻松一些的话题——GAN的应用。

 

在此之前呢,先推荐大家去读一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。

 

这个文章比WGAN出现的时间要早几天,它在真实分布满足Lipschitz条件的假设下,提出了LS-GAN,并证明了它的纳什均衡解存在。它也能解决generator梯度消失的问题,实验发现不存在mode collapse的问题。

 

作者齐国君老师在知乎上写了一篇文章介绍LS-GAN,建议感兴趣的童鞋也去阅读一下,地址:

条条大路通罗马LS-GAN:把GAN建立在Lipschitz密度上

 

回到今天的主题GAN的应用上来。GAN的应用按照大类分为在图像上的应用、在NLP上的应用,以及与增强学习结合。我们分这两个大类进行介绍。今天介绍的应用不涉及算法细节(除了能简短介绍清楚的算法),基本上都有源码,参见文末。

 

 

GAN在图像上的应用

 

 

从目前的文献来看,GAN在图像上的应用主要是往图像修改方向发展。涉及的图像修改包括:单图像超分辨率(single image super-resolution)、交互式图像生成、图像编辑、图像到图像的翻译等。

 

单图像超分辨率

单图像超分辨率任务(SISR)就是给定单张低分辨率图像,生成它的高分辨率图像。传统方法一般是插值,但是插值不可避免地会产生模糊。GAN怎么应用到这个任务上去呢?

 

首先,GAN有两个博弈的对手:G(generator)和D(discriminator),容易想到一种可能的方案是:G的输入是低分辨率图像(LR),输出应该是高分辨率图像(HR)。文献[9]正是采用这种做法。作者采用ResNet作为G,网络架构如下图所示:

 

对于一批N张图像,G的loss定义为

 

其中,包含两部分:content loss和adversarial loss。G的loss包含content loss部分,因此G并非完全的非监督,它也用到了监督信息:它强制要求生成图像提取的特征与真实图像提取的特征要匹配,文中用到的特征提取网络为VGG,content loss定义如下:

 

而adversarial loss就是我们常见的GAN loss:

 

文中采用的为:

 

文献[9]的实验效果如下图所示,可以看出,SRGAN效果比其他方法要好,生成的图像模糊程度更低。代码参见文末的SRGAN。

 

此外,还有另外一个文章[3]也做了GAN在SISR上的应用,文中提出了AffGAN。这里不再展开介绍,感兴趣的同学请参看原文。

 

交互式图像生成

这个工作来自于Adobe公司。他们构建了一套图像编辑操作,能使得经过这些操作以后,图像依旧在“真实图像流形”上,因此编辑后的图像更接近真实图像。

具体来说,iGAN的流程包括以下几个步骤:

 

  1. 将原始图像投影到低维的隐向量空间
  2. 将隐向量作为输入,利用GAN重构图像
  3. 利用画笔工具对重构的图像进行修改(颜色、形状等)
  4. 将等量的结构、色彩等修改应用到原始图像上。

 

值得一提的是,作者提出G需为保距映射的限制,这使得整个过程的大部分操作可以转换为求解优化问题,整个修改过程近乎实时。细节比较多,这里不再展开,请参考文献[6],代码请参考文末的iGAN。下面的demo经过压缩图像质量比较差,查看清晰版本请移步iGAN的github页面。

 

 

图像编辑

GAN也可以应用到图像编辑上,文献[14]提出了IAN方法(Introspective Adversarial Network),它融合了GAN和VAE(variational autoencoder,另一种生成模型)。如果你对VAE、GAN以及它们的融合都比较熟悉,理解IAN应该是很容易的。文章的主要创新在于loss的设计上。

 

以下是IAN编辑图像的一个demo,代码可以在文末的IAN部分找到。

 

 

图像到图像的翻译

所谓“图像到图像的翻译”( image to image translation),是指将一种类型的图像转换为另一种类型的图像,比如:将草图具象化、根据卫星图生成地图等。文献[7]设计了一种算法pix2pix,将GAN应用到image to image translation上。

作者采用CGAN(conditional GAN,关于CGAN的介绍,参见两周前的推送20170203),将待转换的图像作为condition,加上高斯噪声作为generator的输入,generator将输入转换为我们需要的目标图像,而discriminator判断图像是generator产生的,还是真实的目标图像。为了能让generator产生的图像逼近真实的目标图像,generator的loss还包含目标图像匹配度的惩罚项,采用L1范数,generator的loss设计如下:

 

其中,y即为真实的目标图像。

然而,作者在实验中发现,generator会忽略高斯噪声z,而直接根据输入图像x产生目标图像y。为了解决这个问题,作者只在generator的某些层上以dropout的形式加入噪声(training和test时都需要dropout)。代码参见文末的pix2pix,实验效果如下图所示:

 

 

 

 

GAN在NLP上的应用

 

 

目前来说GAN在NLP上的应用可以分为两类:生成文本、根据文本生成图像。其中,生成文本包括两种:根据隐向量(噪声)生成一段文本;对话生成。

如果你对GAN在NLP中的应用感兴趣,推荐阅读下面的文章:

http://www.machinedlearnings.com/2017/01/generating-text-via-adversarial-training.html

或者可以查看AI100翻译的版本:

http://mp.weixin.qq.com/s/-lcEuxPnTrQFVJV61MWsAQ

我对NLP的了解比较少,这里只列举其中一部分应用。

 

对话生成

GAN应用到对话生成的例子,可以看这篇文章[2],文末也有相关的代码(参看GAN for Neural dialogue generation)。下图是GAN对话生成算法的伪代码,省略了很多细节:

 

实验效果如下图:

 

这个工作很有意思。可以看出,生成的对话具有一定的相关性,但是效果并不是很好,而且这只能做单轮对话。

 

文本到图像的翻译

GAN也能用于文本到图像的翻译(text to image),在ICML 2016会议上,Scott Reed等人提出了基于CGAN的一种解决方案[13]:将文本编码作为generator的condition输入;对于discriminator,文本编码在特定层作为condition信息引入,以辅助判断输入图像是否满足文本描述。文中用到的GAN架构如下:

 

作者提出了两种基于GAN的算法,GAN-CLS和GAN-INT。GAN-CLS算法如下:

 

GAN-INT对多种文本编码做一个加权,在这种设计下,generator的loss为:

 

其中,β控制两种文本编码的加权系数。

实验发现生成的图像相关性很高。代码参见文末的text2image。

 

 

 

此外,GAN还可以跟增强学习(RL)结合。

 

Ian Goodfellow指出,GAN很容易嵌入到增强学习(reinforcement learning)的框架中。例如,用增强学习求解规划问题时,可以用GAN学习一个actions的条件概率分布,agent可以根据生成模型对不同的actions的响应,选择合理的action。

 

GAN与RL结合的典型工作有:将GAN嵌入模仿学习(imitation learning)中[5];将GAN嵌入到策略梯度算法(policy gradient)中[11],将GAN嵌入到actor-critic算法中[15],等。

 

GAN与增强学习结合的相关工作多数在16年才开始出现,GAN和RL属于近年来的研究热点,两者结合预计在接下来的一两年里将得到更多研究者的青睐。

 

 

常见GAN

 

 

最后,作为GAN专题的结尾,我们列举一下目前常见的GAN模型(可以根据arxiv id去寻找、下载文献),欢迎补充。

  • GAN - Ian Goodfellow, arXiv:1406.2661v1
  • DCGAN - Alec Radford & Luke Metz, arxiv:1511.06434
  • CGAN - Mehdi Mirza, arXiv:1411.1784v1
  • LAPGAN - Emily Denton & Soumith Chintala, arxiv: 1506.05751
  • InfoGAN - Xi Chen, arxiv: 1606.03657
  • PPGAN - Anh Nguyen, arXiv:1612.00005v1
  • WGAN - Martin Arjovsky, arXiv:1701.07875v1
  • LS-GAN - Guo-Jun Qi, arxiv: 1701.06264
  • SeqGAN - Lantao Yu, arxiv: 1609.05473
  • EBGAN - Junbo Zhao, arXiv:1609.03126v2
  • VAEGAN - Anders Boesen Lindbo Larsen, arxiv: 1512.09300

......

此外,还有一些在特定任务中提出来的模型,如本期介绍的GAN-CLS、GAN-INT、SRGAN、iGAN、IAN等等,这里就不再列举。

 

 

 

代码

 

 

  • LS-GAN

Torch版本:https://github.com/guojunq/lsgan

  • SRGAN

Tensorflow版本:https://github.com/buriburisuri/SRGAN

Torch版本:https://github.com/leehomyc/Photo-Realistic-Super-Resoluton

Keras版本:https://github.com/titu1994/Super-Resolution-using-Generative-Adversarial-Networks

  • iGAN

Theano版本:https://github.com/junyanz/iGAN

  • IAN

Theano版本:https://github.com/ajbrock/Neural-Photo-Editor

  • Pix2pix

Torch版本:https://github.com/phillipi/pix2pix

Tensorflow版本:https://github.com/yenchenlin/pix2pix-tensorflow

  • GAN for Neural dialogue generation

Torch版本:https://github.com/jiweil/Neural-Dialogue-Generation

  • Text2image

Torch版本:https://github.com/reedscot/icml2016

Tensorflow+Theano版本:https://github.com/paarthneekhara/text-to-image

  • GAN for Imitation Learning

Theano版本:https://github.com/openai/imitation

  • SeqGAN

Tensorflow版本:https://github.com/LantaoYu/SeqGAN 

 

 

 

参考文献

 

 

  1.  Qi G J. Loss-Sensitive Generative Adversarial Networks onLipschitz Densities[J]. arXiv preprint arXiv:1701.06264, 2017.
  2.  Li J, Monroe W, Shi T, et al. Adversarial Learning for NeuralDialogue Generation[J]. arXiv preprint arXiv:1701.06547, 2017.
  3.  Sønderby C K, Caballero J, Theis L, et al. Amortised MAPInference for Image Super-resolution[J]. arXiv preprint arXiv:1610.04490, 2016.
  4.  Ravanbakhsh S, Lanusse F, Mandelbaum R, et al. Enabling DarkEnergy Science with Deep Generative Models of Galaxy Images[J]. arXiv preprintarXiv:1609.05796, 2016.
  5. Ho J, Ermon S. Generative adversarial imitationlearning[C]//Advances in Neural Information Processing Systems. 2016:4565-4573.
  6. Zhu J Y, Krähenbühl P, Shechtman E, et al. Generative visualmanipulation on the natural image manifold[C]//European Conference on ComputerVision. Springer International Publishing, 2016: 597-613.
  7. Isola P, Zhu J Y, Zhou T, et al. Image-to-image translationwith conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004,2016.
  8. Shrivastava A, Pfister T, Tuzel O, et al. Learning fromSimulated and Unsupervised Images through Adversarial Training[J]. arXivpreprint arXiv:1612.07828, 2016.
  9. Ledig C, Theis L, Huszár F, et al. Photo-realistic singleimage super-resolution using a generative adversarial network[J]. arXivpreprint arXiv:1609.04802, 2016.
  10. Nguyen A, Yosinski J, Bengio Y, et al. Plug & playgenerative networks: Conditional iterative generation of images in latentspace[J]. arXiv preprint arXiv:1612.00005, 2016.
  11. Yu L, Zhang W, Wang J, et al. Seqgan: sequence generativeadversarial nets with policy gradient[J]. arXiv preprint arXiv:1609.05473,2016.
  12. Lotter W, Kreiman G, Cox D. Unsupervised learning of visualstructure using predictive generative networks[J]. arXiv preprintarXiv:1511.06380, 2015.
  13. Reed S, Akata Z, Yan X, et al. Generative adversarial textto image synthesis[C]//Proceedings of The 33rd International Conference onMachine Learning. 2016, 3.
  14. Brock A, Lim T, Ritchie J M, et al. Neural photo editingwith introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093,2016.
  15. Pfau D, Vinyals O. Connecting generative adversarialnetworks and actor-critic methods[J]. arXiv preprint arXiv:1610.01945, 2016.

     

 

 

推荐: 

语义学习-通用智能的切入点-实现路径v0.01

通用智能-基础技术相关文章-CreateAMind公众号精华

 

一起学习讨论:qq群号 325921031;微信群请公众号内留言‘加群’;

更多深度学习干货请扫描下方二维码访问公众号CreateAMind菜单

阅读原文

 


微信扫一扫
关注该公众号

时间: 2024-10-25 10:49:38

(转) GAN应用情况调研的相关文章

住建部关于开展城市生活垃圾处理有关情况调研通知

各省.自治区住房和城乡建设厅,北京市市政市容管理委员会,上海市绿化和市容管理局,天津市市容和园林管理委员会,重庆市市政管理委员会,新疆生产建设兵团建设局: 为全面了解我国城市生活垃圾处理现状,为"十二五"规划编制以及相关政策制定提供依据,我部将组织开展有关调研,现将调研事项通知如下: 一.调研内容 1.城市生活垃圾处理技术和产品.主要包括垃圾处理有关技术与产品的工艺流程稳定性.技术可靠性.成本可行性.污染控制.产业化发展情况等内容. 2.城市生活垃圾处理政策法规标准体系.主要包括地方与

PaperWeekly 第39期 | 从PM到GAN - LSTM之父Schmidhuber横跨22年的怨念

作者丨郑华滨 学校丨中山大学硕士生 研究方向丨GAN,文本生成,OCR 知乎专栏丨AI带路党 前段时间我受极视角邀请,在斗鱼上直播分享有关 GAN 的话题.考虑到现在网上关于 GAN 的文章.视频都已经非常多了,所以我就故意选择了一个之前没有什么人讲过的主题:LSTM 之父 Schmidhuber 与 GAN 之间的恩怨纠葛.其实这件事在英文网上传播得还挺广,而且除了八卦之外也有一些严肃的学术讨论,可惜相关的中文信息寥寥,不过这样倒正好给我一个机会来给大家介绍一些新内容. 其实相比视频直播我还是

2016中国容器技术应用落地调研报告解析

本文讲的是2016中国容器技术应用落地调研报告解析[IT168评论]近日, IT68携手ChinaUnix.ITPUB,共同对中国容器技术应用落地情况展开调研.通过对有效样本信息的汇总整理发现,越来越多的企业开始重视容器技术的应用,但是由于容器技术还不够成熟,所以大部分的企业还停留在观望阶段.但是由以下调查数据可以看出,容器技术未来经过技术积淀与市场培育,将会以惊人的速度被企业拥抱. 以下是本次调研的详细数据整理: 本次通过对参与调研者的行业分布分析可以看出,超过5成的参与者所属行业是传统行业,

调研报告显示:发展大数据 贵州省仍有三短板

记者获悉,今年10月下旬,贵州省人大财经委开展全省大数据信息产业发展情况调研.据调研报告显示,贵州省大数据信息产业在发展较快的同时存在一些突出问题和瓶颈,制约了产业的发展. 首先,信息基础设施薄弱.当前贵州省智能终端普及.有线电视发展.光纤发展.宽带普及.宽带速率指数在全国排名靠后.加之贵州省互联网不能满足一些大数据企业"宽带要宽.网速要快.资费要低"的要求,导致这些企业难以到贵州省落户.此外,贵阳1G带宽的最高使用费用是北上广等一线城市的3倍,成为制约大数据信息产业发展的重要瓶颈.

中移动拟招标调研高校市场

飞象网讯(吉利/文)10月24日消息,日前,中国移动(微博)浙江启动2011年秋季校园营销情况调研项目的招标工作,通过对高校学生的实地面访,以了解三家运营商校园市场不同的占有率和双机用户占比,以及校园宽带的选择及使用情况. 中移动拟招标调研高校群体 评估市场占有率 随着运营商之间的资费竞争不断升级,"双枪"甚至"三枪"一族的阵营也愈发壮大,不断分食三家各自的市场份额.而对资费比较敏感的学生群体,在一定程度上也可左右运营商半壁江山的得失,因此,三家电信运营商每年在校园

2016年金融全行业网络安全状况调研报告

本报告由谷安天下和乌云联合发布,并感谢网贷之家.支付圈.安全值.安全牛等媒体和机构提供数据来源. 金融行业网络安全调研概述 报告背景 近两年来互联网金融飞速发展,不同于传统金融,依托于互联网的新的金融模式除了金融原有的风险之外,还引入了新的风险,数据大规模泄露.资金被盗.业务中断等事件频频发生.在此背景下,谷安天下开展了本次金融行业网络安全调研.该调研从互联网威胁情报.漏洞.企业信息安全内部管控三个方面入手,调研了2016年第一季度金融行业的网络安全状况,从市场调研结果透视金融行业网络安全的现状

开启数据智慧,阿里云大数据团队调研高新区

2月15日,阿里云大数据公司调研组来到高新区,进行为期三天的大数据产业发展情况调研活动.高新区分管领导.市工商联副主席及职能部门参加了此次调研活动. 调研组一行首先走访了大全集团和威腾集团.两家企业就目前的业务现状.大数据的运用.大数据与人工智能方面的相关设想,企业在云计算与大数据这块面临的问题等方面进行深入探讨. 走访大全集团 走访威腾集团 阿里云创新中心五叶草大数据孵化器CEO王献旗在考察了高新区区域规划和主导产业后,向分管领导介绍了阿里云孵化大数据,不同于只提供办公场地传统孵化器,阿里云则

北京海淀法院:近10年网络犯罪女黑客比例高,职业黑客渐常见

  雷锋网(公众号:雷锋网)消息,3月29日,海淀法院网发文称,海淀法院对一起涉嫌利用网络漏洞植入木马非法控制计算机信息系统的案件进行公开开庭审理,随后海淀法院召开新闻发布会,发布了<2007年至2016年海淀区人民法院审结网络犯罪案件情况调研报告>. 让人震惊的一点是,在近十年来网络犯罪中,女性高学历占据了高比例,且职业黑客呈常态化. 原文如下: 海淀法院在审判活动中发现,近十年来网络犯罪呈现以下几方面变化趋势: 一.总体态势增长快,近两年稳中有升.近十年海淀法院审结 322 件网络犯罪案件

2016软件开发全行业调查白皮书 告诉你最真实的程序猿世界

2016年中国软件开发者大调查针对软件开发技术.应用开发领域等方面对调查问卷进行了重新设计,同时还新增加了VR.直播.人工智能等新兴软件开发领域的相关调查,更能体现中国IT业.尤其是软件开发领域的发展现状.日前,CSDN发布了<2016年度中国软件开发者白皮书>,解读中国软件开发者的现实状态. 报告指出:全国有近5成开发者月均收入过万,其中近7成来自一线城市.软件开发者在获得较高收入的同时,承受的工作压力也在加大,70%左右的开发者处于长期需要加班状态,40%以上的开发者会经常处于工作压力之下