论文笔记之:UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

 

UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS 

ICLR 2016 

 

  摘要:近年来 CNN 在监督学习领域的巨大成功 和 无监督学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口。提出了一种 deep convolutional generative adversarial networks (DCGANs),that have certain architecture constraints。

 

  引言:在计算机视觉领域,可以通过海量无标签数据,从中学习到好的表示(good immediate representation)然后将其应用到众多监督学习任务当中去,例如:image classification。一种较好的方法就是,利用产生式对抗网络来完成,然后利用 产生器 和 判别器的一部分来作为特征提取器,进行其他监督任务的学习。众所周知,GANs 的缺点是:unstable to train ,这样就会导致产生了毫无意义的输出。甚少有 paper 尝试去理解和可视化 GANs 到底学习到了什么,以及多层 GANs 的即可表示。

  本文的贡献点在于:

  1. 本文提出一些网络结构上的约束,使得训练过程更加稳定。并将此类型的结构称为:Deep Convolutional GANs (DCGAN) 

  2. 利用训练好的 discriminators 进行 image classification tasks,取得了和其他 unsupervised learning algorithm 相当的结果 

  3. 作者将 GANs 的 filter 进行了可视化处理,表明特定的 filter 学到了 draw specific objects 

  4. We show that generators have interesting vector arithmetic properties allowing for easy manipulation of many semantic qualities of generated samples 

 

  Approach to Model Architecture :

  已经有很多尝试将 GANs 做 scale up,但是几乎都不怎么成功。作者在尝试用 supervised learning 常用的方法做 scale 时,也遇到了很多困难。但是,在作者做了很多模型探索之后(extensive model exploration)得到了一些结构上的技巧来改善训练的稳定性,并且允许得到更高分辨率的图像,采用更深的产生式模型。

  本文核心的方法,主要从以下三个方面进行网络结构上的设计和改变 : 

  第一个是:the all convolutional net . 将 deteministic spatial pooling function (such as: maxpooling)with strided convolutions,使得网络可以学习其自己的 spatial downsampling。我们利用这种方法到我们的 generator 当中,允许其学习自己的 spatial upsampling,and discriminator 。 

  第二个是:the trend towards eliminating fully connected layers on top of convolutional features.  作者发现:global average pooling 增强了模型的稳定性,但是损害了收敛的速度。A middle ground of directly connecting the highest convolutional features to the input and output respectively of the generatively of the generator and discriminator worked well. 具体的网络结构见下图:

  第三个是:Batch Normalizaiton,which stabilizes learning by normalizing the input to each unit to have zero mean and unit variance。但是,直接对所有的 layer 都使用这种技术,就会出现问题:resulted in sample oscillation and model instability 。这种困难是通过 不对 generator output layer 和 discriminator input layer 采用这种方法,就行了。

  The ReLU activation is used in generator with the exception of the output layer which uses the Tanh function. 

  作者总结了一个列表,对稳定的训练 GANs 提供了下面的几条建议:

 

  Details of Adversarial Training :

  作者在三个数据集上进行了训练,分别是:Large-scale Scene Understanding (LSUN),Image Net-1k and Faces dataset 。

 

  Expirical Validation of DCGANs Capabilities .  

  1. Classifying CIFAR-10 using GANs as a Feature Extractor

  一种评价无监督表示学习算法的方式是:将其作为 特征提取器(feature extractor)在监督的 dataset 上,然后评价线性模型在这些特征上的拟合能力(evaluate the performance of linear models fitted on top of these features)。

  作者将 K-means 这种无监督学习方法作为一种 baseline,并且与之在 cifar-10 数据集上进行了对比。

 

 

  2. Classifying SVHN digits using GANs as a feature extractor

  在 SVHN dataset 上,作者将 DCGAN 的 discriminator 提取出来的特征,在 supervised learning 上做了测试。作者类似于监督学习的思路,将数据集划分开来。本文的方法取得了不错的效果,并且表明:the CNN architecture used in DCGANs is not the key contributing factor of the model‘s performance by training a purely supervised CNN with the same architecture on the same data and optimizing this model via random search over 64 hyperparameter trials .  

 

  Investgating and Visualizing the Intervals of the Networks . 

  

 

 

  Manipulating the Generator Representation :

  

 

 

 

  

  

   

  

  

  

  

时间: 2024-08-30 17:40:03

论文笔记之:UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS的相关文章

论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

  Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类别标签.我们在一个数据集上训练一个产生式模型 G 以及 一个判别器 D,输入是N类当中的一个.在训练的时候,D被用于预测输入是属于 N+1的哪一个,这个+1是对应了G的输出.这种方法可以用于创造更加有效的分类器,并且可以比普通的GAN 产生更加高质量的样本.  将产生式模型应用于半监督学习并非一

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

论文笔记之:Playing Atari with Deep Reinforcement Learning

  Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013   Abstract: 本文提出了一种深度学习方法,利用强化学习的方法,直接从高维的感知输入中学习控制策略.模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function.将此方法应用到 Atari 2600 games 上来,进行测试,发现在所有游戏中都比之前的方法有效

论文笔记之:Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning ICML 2016   深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很多共同的 idea:一个 online 的 agent 碰到的观察到的数据序列是非静态的,然后就是,online的 RL 更新是强烈相关的.通过将 agent 的数据存储在一个 experience replay 单元中,数据可以从不同的时间步骤上,批处理或者随机采样.这种方法可以降低 non-

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

  StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks    本文将利用 GANs 进行高质量图像生成,分为两个阶段进行,coarse to fine 的过程.据说可以生成 256*256 的高清图像. 基于文本生成对应图像的工作已经有了,比如说 Attribute2Image,以及 最开始的基于文本生成图像的文章等等. Stacked Generated A

论文笔记之:Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

  Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks NIPS 2015    摘要:本文提出一种 generative parametric model 能够产生高质量自然图像.我们的方法利用 Laplacian pyramid framework 的框架,从粗到细的方式,利用 CNN 的级联来产生图像.在金字塔的每一层,都用一个 GAN,我们的方法可以产生更高分辨率的图像.      

(转)Deep Learning Research Review Week 1: Generative Adversarial Nets

Adit Deshpande CS Undergrad at UCLA ('19) Blog About Resume Deep Learning Research Review Week 1: Generative Adversarial Nets Starting this week, I'll be doing a new series called Deep Learning Research Review. Every couple weeks or so, I'll be summa

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53    这篇文章的 Motivation 来自于 MDNet:    本文所提出的 framework 为:                             

论文笔记之:DualGAN: Unsupervised Dual Learning for Image-to-Image Translation

  DualGAN: Unsupervised Dual Learning for Image-to-Image Translation 2017-06-12  21:29:06     引言部分: 本文提出一种对偶学习模式的 GAN 网络结构来进行 image to image translation.现有的图像之间转换的方法,大部分都是需要图像对的方法,但是实际上有的场景下,很难得到这样的图像对.如何利用多个 domain 之间的关系,不需要图像对就可以进行图像之间的转换,那将会是一个很 c