“GAN之父”Goodfellow与网友互动:关于GAN的11个问题(附视频)

编者按:昨天,雷锋网(公众号:雷锋网)根据 Ian Goodfellow 演讲视频的前20分钟整理出《“GANs之父”Goodfellow 38分钟视频亲授:如何完善生成对抗网络?(上)》,其中Goodfellow主要讲述了什么是 GAN 和 DCGANs、模型崩溃、小批量特征、文本转图像等问题。本文是后18分钟视频的内容,主要是 Goodfellow 回答网友提问,总共有11个问题。本文由雷锋网三川、亚萌联合编译。

CNN、GANs 和 DBN(Deep Belief Network)之间区别是什么?

简单来说,CNN是神经网络的一种架构,它们未必是为了学习如何生成一组图像而设计。它们可以被用来创造很多的东西,包括 GANs 和 DBN。

这个问题的另外一个方面是:DBN和 GANs 的效果或者学习区别是什么。DBN 基于统计物理学的模型,你写下一个能量函数(energy function),来描述不同图片的相似度。如果一个图像的能量较低,那么更可能发生。这类似于山上的岩石。滚到山脚的石头比山顶的石头有更低的能量,这是由于重力。所以在山脚发现大堆石头的可能性更大。DBN 的难点在于,很多必需的、模拟物理定律的计算变得非常复杂,所以它扩展到大型彩色图像的效果不好。对于类似 EM Nest 的应用,它效果很好。但在 Imagenet 上,DBN 还不能产生有竞争力的结果。

文本转图像的 GANs,是需要同时输入代码和语句吗?

基本上,省略掉代码是有可能的。但在大多数应用中,人们既输入代码也输入语句限制条件,这样才能保证最终输出结果的多样性。这样系统才能学习到整个有条件的概率分布,从一次输入信息中,得到多样化的输出样本。

高效训练 GANs 的难点在哪?如何解决?

主要的困难是模型崩溃,以及寻找模型均衡点(equilibrium)的相关问题。

主要的解决方式是,开发能找到均衡状态的新算法,而不是依靠让误差最小化的成本函数(cost function)。

这其中的均衡状态是不断演化着(Evolutionary)的吗?

其实并不是,而是随机的,神经网络训练利用梯度算法来引导更新。

(编者注:这里 Goodfellow 又回头接着讲PPT上的内容)GANs 还有一个很酷的应用是,对画家进行自动辅助。你也许不擅长绘画,但有了这个 GANs 辅助绘图软件,你只需画这么一个三角,GANs 会自动搜索有相似特点的图像,然后在你画的三角区域,填充山丘的纹理;并在你画的绿色波浪那里,填充青草的纹理。

基于 GANs 的绘图辅助功能

我昨天刚听说一个很相似的主意,也使用了“内省对抗网络”( Introspective Adversarial Network)。它是一个辅助图像编辑的功能。当你绘图时,生成模型会把你画出的图形转化为照片般真实的图像。所以,你编辑的图片不会看起来很假,还能不断调整你希望看到的效果。这样,最终编辑出来的图像看起来很真实,一点也不像用鼠标涂鸦过。

你之前提到GANs无法将纹理和肢体有效结合起来的问题,那么你认为解决方案是什么?

这其实很难知道。因为训练算法不够好。目前训练算法的一个问题是,它们被设计用来最小化每一层网络的成本函数,而不是找到均衡点。拿两个人玩“剪刀包袱锤”做比方。假设你出锤,对方出包袱。你输了这局,你觉得既然对方出包袱,下一局你就出剪刀。因为你出剪刀,对方决定再下一局出锤子……这样周而复始,双方都达不到纳什均衡。

这个游戏的均衡点是,每个人以三分之一的比率分别出剪刀、包袱、锤。但如果你的学习算法的学习速率(Learning Rate)不够小,它不会找到均衡点。这个例子十分简单,只要减小学习速率就能找到均衡点。对于GANs,这更复杂。减小学习速率,并不能保证能找到均衡点。我们极有可能需要一些专门的算法,或者改变游戏方式,让使用低学习速率的梯度下降法也能找到均衡点。这是一个相对困难的研究问题。包括我在内,很多人仍在研究。

回到如何放置肢体和纹理及形成3D效果的问题。我们也许需要开发一个更复杂的架构,比方说,生成器的网络深度不够。如果我们有一个极深的生成器,它也许能学习怎么让图像的不同部分更和谐。或者,我们也可以对图形加入特殊操作,类似于 Open GL 的渲染管道。如果你见过空间变换网络处理分类任务,你可以想象用它把有纹理的多边形放置到图像中。

什么GANs应用能商业化,成为明星产品?

我认为对于 Photoshop 这样的应用,自动化绘图会是一个很好的功能。把上文中介绍的自动绘图算法推向市场会很有用处。另外一个领域是语音合成,神经网络对它非常擅长。Deepmind 最近的一篇论文提到一个名为 “Wavenet”的模型,可以创造出极为逼真的人类语音。Wavenet 的问题是,它生成样本的速度很慢。这类生成模型每一步只能完成输出的一个部分。Wavenet 以约 12 千赫的速度生成声音样本。所以你需要连续运行 12000 个神经网络,每一个神经网络的输出被用作下一个神经网络的输入。每一秒合成语音需要两分钟的计算时间,因此神经网络无法进行即时会话。软、硬件效率的提升最终能让它更快。但现在看来,我们离 Wavenet 进行即时会话还有好几年的时间。理论上,生成对抗网络能提供更快的文字到语音的合成。

如何在GANs里生成反馈回路(Feedback Loop)?

生成对抗网络会生成,和输入的参数十分相似的输出。在时间轴上预测下一步(在 Wavenet 的例子上是音频序列),你可以直接把 Wavenet 架构用作生成网络,反向传播算法(backpropagation)会正常运作。

你认为,如何才能把输出扩展为大尺寸?

其实,由于高效率的卷积,扩展输出尺寸通常不是那么难。举例来说,我演讲中展示的最大图片,它的尺寸是 128×128。最近的论文中,Facebook 已经做到输出 256×256 的图片。真正难的是,输出大量内含恰当细节的多样化图像。

GANs能否用于数据压缩?

嗯,很有可能。原则上大多数生成模型都可以。对于 GANs,你需要找到能从图像到描述图像的代码的方法。我描述的 GANs 版本只有单一方向(代码到图像)映射,但是蒙特利尔大学的对抗学习推理(Adversarially Learned Inference),还有加州大学伯克利分校的双向GANs(Bidirectional GANs),有从图像到代码的编码层(Encode Layer)。你可以用编码层生成简单代码,对于经过解码的图像的区别,再使用硬编码的压缩算法将之压缩。如果你运气好,这些区别足够小,可以被压缩,最终结果会比原始图像使用更少的比特。

你对GANs的目标是什么?

我最感兴趣、花费很多时间来研究的是提高训练稳定性,但这特别难。我还花一些时间在开发新架构上。但相比稳定性,它关系不大。

你可以详细解释上面的反馈回路问题吗?

如果你有一个生成网络,能把它自己的输出作为输入,那就能做到。如果你有一个层级,从代码映射到视频第一帧;然后你创建另一个层级,把上一帧视频映射到代码,再到下一帧;你可以把第二层级不断重复利用,它应该能做出不错的视频序列。

反馈回路:输入→输出→输入(照此循环)

这方面的研究很少,发表的论文也不多。大多数生成对抗网络的研究都是关于图像。Facebook AI 研究部门有一篇关于视频生成的论文,该研究用到了对抗网络损失。还有一篇讲3D合成视频序列的论文。这些论文很具体地解释了研究人员是怎么做的以及最终成效。我认为两个研究都加入了一些额外的东西,包括下一帧预测的方差。为了略微稳定训练。Facebook 的研究还加入了一个基于比较图像的边缘的损失,来保证生成的视频不模糊。

视频预测一个很难的地方是:大多数模型预测认为,你应该把同一帧永远复制下去;或者影像不断模糊下去,直到全部消失。这是由于每一个像素的不确定性太多。所以,让他们不断预测每一帧的清晰画面十分困难。

【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。

简历投递至guoyixin@leiphone.com,工作地 深圳;或投递至wudexin@leiphone.com,工作地 北京。

相关文章:

“GANs之父”Goodfellow 38分钟视频亲授:如何完善生成对抗网络?(上)

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-03 17:14:11

“GAN之父”Goodfellow与网友互动:关于GAN的11个问题(附视频)的相关文章

“GANs之父”Goodfellow 38分钟视频亲授:如何完善生成对抗网络?(上)

编者按:深度学习顶级盛会NIPS于今年12月初在巴塞罗那举行,相信有很多人都无法参加.不过,有另一个AI盛会却是全世界所有人都能参加的,叫做"AI WITH THE BEST",已于今年9月在网络世界里召开.演讲嘉宾有100多人,其中就有"GANs之父"Ian Goodfellow.这个会议由于是网络播出,所以有完整录像,雷锋网对比Ian Goodfellow在NIPS的演讲内容,二者十分相仿,故在此将此次会议的视频搬运给大家,并附上中文图文详解(PS:本文由亚萌和

中福在线\"网友互动大赛\",初赛告捷

近期中福在线联合宽带山一起在全市33个中福在线销售厅开展"网友互动大赛".活动自2016年11月5日至11月19日,共计初赛2场,正赛1场. 秋高气爽,彩民们纷纷通过线上报名渠道踊跃报名.参赛的彩民必须使用上海市福利彩票发行中心免费提供的卡内积分200元的中福在线游戏投注卡,在指定投注终端机上进行游戏参加比赛.比赛的名次按照比赛中规定比赛时间内退卡点数由高到低进行排名. 工作人员与参赛选手早早的就来到了比赛现场,中福在线销售厅舒适的环境,工作人员热情周到的服务,以及贴心的问候对于参加比

最简单易懂的GAN(生成对抗网络)教程:从理论到实践(附代码)

  之前 GAN网络是近两年深度学习领域的新秀,火的不行,本文旨在浅显理解传统GAN,分享学习心得.现有GAN网络大多数代码实现使用Python.torch等语言,这里,后面用matlab搭建一个简单的GAN网络,便于理解GAN原理. GAN的鼻祖之作是2014年NIPS一篇文章:Generative Adversarial Net,可以细细品味. ● 分享一个目前各类GAN的一个论文整理集合 ● 再分享一个目前各类GAN的一个代码整理集合   开始 我们知道GAN的思想是是一种二人零和博弈思想

当当网推24个个性域名与网友互动 趣味十足

由当当网推出的"当当网猜猜当当的神奇域名"活动今日上线,当当网用户只需根据提示猜出当当网的24个个性域名中的任意一个,最先给出正确答案的可以获得20到100元不等的当当网购物券. 这次由当当网首批推出的24个域名可谓结合了时下的新鲜元素,充满趣味,个性化十足.如<非诚勿扰2>中的台词"人生就是一场修行".<武林外传>中的台词"排山倒海"等,都成为当当网的个性化域名.只要在浏览器中输入 www.renshengjiushiy

奥巴马拟于下周在Twitter上和网友互动

奥巴马 新浪科技讯 北京时间7月1日凌晨消息,美国白宫宣布,总统奥巴马将于下周在Twitter上举办首次市政厅(town hall)互动活动,此前奥巴马在Facebook和YouTube上举行了市政厅互动活动. 活动将于美国东部时间7月6日下午2点举行,将集中讨论经济和创造就业等问题.用户可通过#AskObama标签提问,也可以粉@Townhall以获取更新.在Twitter专门制作的网页上,用户还可以看到奥巴马通过视频实时解答问题.Twitter联合创始人杰克·多尔塞(Jack Dorsey)

千名网友互动夏天省水窍门海尔热水器教你节水妙招

夏天用水多,还容易产生浪费,给不少消费者带来烦恼.近日,海尔热水器在其官方微博上发起了"你家用水合理吗?"活动,和 网友共同讨论夏天省水省电的小窍门,吸引了众多网友的关注.而就在前不久,海尔热水器以9%和17%的市场占有率分别获得热水器全品类和电热水器类全球销量第一.与此同时,世界影响力组织也将海尔热水器评为"世界名牌"产品.记者打开海尔热水器官方微博浏览发现,活动启动至今已有数千条转发.评论,在这些转发评论中,网友们对于如何合理搭配使用热水器的关注度最高,纷纷提出

LS-GAN作者诠释新型GAN:条条大路通罗马,把GAN建立在Lipschitz密度上

最近很多关心深度学习最新进展,特别是生成对抗网络的朋友可能注意到了一种新的GAN-- Wasserstein GAN.其实在WGAN推出的同时,一种新的LS-GAN (Loss Sensitive GAN,损失敏感GAN)也发表在预印本 [1701.06264] Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities 上. 那这两种GAN有没有什么联系呢?作为LS-GAN的作者,笔者就带大家一览WGAN和LS-G

生成对抗网络(GANs )为什么这么火?盘点它诞生以来的主要技术进展

两年前,蒙特利尔大学 Ian Goodfellow 等学者提出"生成对抗网络"(Generative Adversarial Networks,GANs)的概念,并逐渐引起 AI 业内人士的注意.其实,直到 2015 年,生成对抗网络还称不上是炙手可热.但自今年(2016)以来,学界.业界对 GANs 的兴趣出现"井喷": 多篇重磅论文陆续发表: Facebook.Open AI 等 AI 业界巨头也加入对 GANs 的研究: 它成为今年 12 月 NIPS 大会当

深度学习全网最全学习资料汇总之模型介绍篇

本文旨在加速深度学习新手入门,介绍 CNN.DBN.RNN.RNTN.自动编码器.GAN 等开发者最常用的深度学习模型与架构.雷锋网搜集整理了涉及以上话题的精品文章,供初学者参考. 卷积神经网络 CNN 深度学习元老Yann Lecun详解卷积神经网络 Yann Lecun 的 CNN 话题演讲+ppt. 链接:http://www.leiphone.com/news/201608/zaB48AcZ1AFm1TaP.html 卷积神经网络(CNN)新手指南 翻译自国外的 CNN 教程,解释详细,