SalGAN: Visual saliency prediction with generative adversarial networks

 

SalGAN: Visual saliency prediction with generative adversarial networks

2017-03-17

 

  摘要:本文引入了对抗网络的对抗训练机制来进行显著性物体的预测。虽然我们老板很不喜欢显著性,但是,做显著性检测的人还是会说:这是有意义的。如本文说的:恩,显著性可以作为 soft-attention,来引导其他计算机视觉任务的进行,也可以直接引导 marketing 领域。

  本文区别于其他方法最显著的地方在于:the usage of generatvie adversarial networks。本文将训练分为两个阶段:

    1. 产生器产生一个服从训练集合的伪造的样本;

    2. 判别器就是用于判断给定的样本是 真实的 还是 伪造的。

  本文中谈到的 data distribution 意思是:实际的图像 和 对应的显著性图。

    本文总结的贡献点是:

    1. 探索了 GAN 在显著性物体检测上的应用,在某些数据集上取得了不错的效果;

    2. 在训练 DCNN 时,应用 二元交叉熵损失函数 和 下采样显著性图 是可以提升效果的。

 

  本文的网络框架设计如图所示:

  

 

  网络结构分析:

  1. 产生器:
    Convolutional encoder-decoder architecture 

  2. 判别器:

    就是一个 CNN 结构。

  

  训练(Training):

  1. Content Loss 

    由于 产生器 部分的输出是 saliency map,要计算的这部分就是:输出的 saliency map 和 gt saliency map 之间均方差 loss 。 

    用的就是 两个 map 之间的欧式距离:

    

    本文中 MSE 就是用来作为 baseline 的,因为大部分显著性检测的方法都是基于这个 loss function。GT saliency maps 被归一化到 0-1 之间。

    这里用到了 二元交叉熵损失函数:

    

  2. 对抗损失

    关于 GAN 这里就不在介绍了,那么显著性检测和 gan 有什么不同呢?

    1. 首先,目标是拟合一个 决策函数 来产生实际的 saliency values,而不是从随机的 noise 中得到 真实的图像;

        这样的话,输入给产生器的东西就不再是 随机的 noise,而是一张图像;

    2. 其次,显著性所对应的图 是衡量质量的;

        所以我们将图像和 saliency map 作为输入给产生器

    3. 最后,在 GAN 产生图像的时候,没有 gt 进行对比,属于无监督学习;

        但是,在显著性检测的时候,我们是有现有的 gt 作为对比的。

    

  我们发现产生器函数更新的时候,我们发现 利用判别器的loss 和 对比gt得到的交叉熵损失函数,可以显著地提升对抗训练的稳定性和收敛速度。

  最终的 loss function 可以定义为:

  

  



  实验结果:

    

 

 

时间: 2024-11-09 09:44:48

SalGAN: Visual saliency prediction with generative adversarial networks的相关文章

论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

  Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类别标签.我们在一个数据集上训练一个产生式模型 G 以及 一个判别器 D,输入是N类当中的一个.在训练的时候,D被用于预测输入是属于 N+1的哪一个,这个+1是对应了G的输出.这种方法可以用于创造更加有效的分类器,并且可以比普通的GAN 产生更加高质量的样本.  将产生式模型应用于半监督学习并非一

(转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

  Introductory guide to Generative Adversarial Networks (GANs) and their promise!   Introduction Neural Networks have made great progress. They now recognize images and voice at levels comparable to humans. They are also able to understand natural la

Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 2017   This paper use GAN to handle the issue of small object detection which is a very hard problem in general object detection. As shown in the follow

论文笔记之:UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

  UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS  ICLR 2016    摘要:近年来 CNN 在监督学习领域的巨大成功 和 无监督学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口.提出了一种 deep convolutional generative adversarial networks (DCGANs),that have ce

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

  StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks    本文将利用 GANs 进行高质量图像生成,分为两个阶段进行,coarse to fine 的过程.据说可以生成 256*256 的高清图像. 基于文本生成对应图像的工作已经有了,比如说 Attribute2Image,以及 最开始的基于文本生成图像的文章等等. Stacked Generated A

论文笔记之:Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

  Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks NIPS 2015    摘要:本文提出一种 generative parametric model 能够产生高质量自然图像.我们的方法利用 Laplacian pyramid framework 的框架,从粗到细的方式,利用 CNN 的级联来产生图像.在金字塔的每一层,都用一个 GAN,我们的方法可以产生更高分辨率的图像.      

(转)Deep Learning Research Review Week 1: Generative Adversarial Nets

Adit Deshpande CS Undergrad at UCLA ('19) Blog About Resume Deep Learning Research Review Week 1: Generative Adversarial Nets Starting this week, I'll be doing a new series called Deep Learning Research Review. Every couple weeks or so, I'll be summa

论文札记之 - Generative Adversarial Nets

值此岁末之际,又逢DL浪潮之巅,深觉应该整理下看过的一些 papers,写写自己粗鄙的见解,第一篇就从目前热门的 GAN 开始吧 摘要    GAN 是一个框架 ,有两个 model,一个是用于刻画数据分布的生成式模型 G ; 另一个是判别模型 D ,用于判断数据是从 G 生成的还是从训练样本中采样的.理所应当的, G 模型要让 D 模型相信数据是从自身产生的,因此目标就是 "maximize the probability of D making a mistake" .作为一个判别

论文阅读之:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

  Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network  2016.10.23    摘要:本文针对传统超分辨方法中存在的结果过于平滑的问题,提出了结合最新的对抗网络的方法,得到了不错的效果.并且针对此网络结构,构建了自己的感知损失函数.先上一张图,展示下强大的结果: Contributions:  GANs 提供了强大的框架来产生高质量的 plausible-looking n