StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

 

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 

 

  本文将利用 GANs 进行高质量图像生成,分为两个阶段进行,coarse to fine 的过程。据说可以生成 256*256 的高清图像。

  基于文本生成对应图像的工作已经有了,比如说 Attribute2Image,以及 最开始的基于文本生成图像的文章等等。

  

  Stacked Generated Adversarial Networks.

     所涉及到的两个阶段分别为:

      Stage-I GAN:基于文本描述,我们得到初始的形状,基础的色彩;然后从随机 noise 绘出背景分布,产生低分辨率的图像;

      Stage-II GAN:通过在此的结合文本描述,进行图像的细致化绘制,产生高质量的 Image。

 

  为了缓解条件文本描述 t 产生的高维的 latent space,但是有限的训练数据,可能导致 latent data manifold 的非连续性,

这对于训练产生器来说,可能不是很好。

  为了解决这个问题,作者引入了 条件增强技术 来产生更多的条件变量。从一个独立的高斯分布 N 中随机的采样 latent variables,其均值 $\mu$ 和 对角协方差矩阵 是 text embedding 的函数。所提出的公式可以进一步的提升对小的扰动的鲁棒性,并且在给定少量 image-text pairs 的条件下,产生更多的训练样本。为了进一步的提升平滑性,给产生器的目标函数,添加了一个正则化项:

  

  其中,上式就是 标准高斯分布 和 条件高斯分布的 KL-散度。

  基于高斯条件变量 c0,阶段一的 GAN 迭代的进行两个目标函数的训练:

  

  第二个阶段的 GAN 和第一阶段的非常类似。

  

 

  不同的地方,在于产生器不再以 noise Z 作为输入,而是 s0 = G0(z,c0)。

  

  



    

  

  

  

 

  整体来说,个人感觉并没有太多的创新,不过这个实验结果,的确是非常 impressive。

   



 

  

  

 

时间: 2024-10-25 10:49:32

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记的相关文章

Video Frame Synthesis using Deep Voxel Flow 论文笔记

  Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv    摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理初学者在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏览记录 1.google deepmind :Look, Listen and Learn 多信息融合感觉很厉害 2.The Weizmann Institute of Science:Non-Uniform Blind Deblurring by Reblurring 非均匀盲模糊 3.中科大(微软

(转) AdversarialNetsPapers

    本文转自:https://github.com/zhangqianhui/AdversarialNetsPapers AdversarialNetsPapers The classical Papers about adversarial nets The First paper  [Generative Adversarial Nets] [Paper] [Code](the first paper about it) Unclassified  [Deep Generative Im

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域

本文讲的是从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域, 今秋,在以水城而闻名的威尼斯,来自世界各地的三千多位学者荟萃一堂,共赴两年一度的国际计算机视觉大会 (ICCV).这次大会的一个重要亮点就是中国学者的强势崛起.根据组委会公开的数字,会议 40% 的论文投稿来自中国的研究者.在中国的人工智能浪潮中,商汤科技以及它与港中文的联合实验室无疑是其中最有代表性的力量.在本届 ICCV 大会,商汤科技与香港中大-商汤科技联合实验室共发表了 20 篇论文,其中包括 3 篇 Oral

Awesome Torch

Awesome Torch  This blog from:    A curated list of awesome Torch tutorials, projects and communities. Table of Contents Tutorials Model Zoo Recurrent Networks Convolutional Networks ETC Libraries Model related GPU related IDE related ETC Links Tutor

GAN(生成对抗网络)的最新应用状况

今天我们来聊一个轻松一些的话题--GAN 的应用. 在此之前呢,先推荐大家去读一下一篇新的文章 LS-GAN(Loss-sensitive GAN)[1]. 这个文章比 WGAN 出现的时间要早几天,它在真实分布满足 Lipschitz 条件的假设下,提出了 LS-GAN,并证明了它的纳什均衡解存在.它也能解决 generator 梯度消失的问题,实验发现不存在 mode collapse 的问题. 作者齐国君老师在知乎上写了一篇文章介绍 LS-GAN,建议感兴趣的童鞋也去阅读一下,地址:htt

(转) GAN应用情况调研

    本文转自: https://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649290778&idx=1&sn=9816b862e167c4792f4251c199fcae16&chksm=8811ee5cbf66674a54e87bc3cef4937da6e5aac7599807754731ab777d359b219ac6de97616e&mpshare=1&scene=2&srcid=021

(转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

  Introductory guide to Generative Adversarial Networks (GANs) and their promise!   Introduction Neural Networks have made great progress. They now recognize images and voice at levels comparable to humans. They are also able to understand natural la

(转)Deep Learning Research Review Week 1: Generative Adversarial Nets

Adit Deshpande CS Undergrad at UCLA ('19) Blog About Resume Deep Learning Research Review Week 1: Generative Adversarial Nets Starting this week, I'll be doing a new series called Deep Learning Research Review. Every couple weeks or so, I'll be summa