论文笔记之:Instance-aware Semantic Segmentation via Multi-task Network Cascades

 

Instance-aware Semantic Segmentation via Multi-task Network Cascades

Jifeng Dai Kaiming He Jian Sun

 

本文的出发点是做Instance-aware Semantic Segmentation,但是为了做好这个,作者将其分为三个子任务来做:

1) Differentiating instances. 实例区分

2) Estimating masks.    掩膜估计

3) Categorizing objects.   分类目标

 

通过这种分解,作者提出了如下的多任务学习框架,即:Multi-task Network Cascades (MNCs),示意流程如下:

 

下面详细的介绍下这个流程,即:

1. Multi-task Network Cascades

1). Regressing Box-level Instances 

  第一个阶段是回归出物体的bbox,这是一个全卷积的子网络。本文follow了Faster R-CNN的提取proposal的方法Region Proposal Networks (RPNs)。在共享feature之前,作者先用了一个 3*3的Conv 用于降维,紧跟着用2个1*1的Conv层回归出其位置,并且对目标进行分类。该阶段的loss function是:

其中,B是该阶段的输出,是一系列的box,B = { Bi }, Bi = { xi; yi; wi; hi; pi },box的中心点和长宽分别是:xi yi wi hi, yi是物体的概率。

 

2). Regressing Mask-level Instances 

  该阶段的输出是对每一个box的proposal进行像素级的mask分割。

    Given a box predicted by stage 1, we extract a feature of this box by Region-of-Interest (RoI) pooling . The purpose of RoI pooling is for producing a fixed-size feature from an arbitrary box, which is set as 14*

时间: 2024-08-03 09:25:46

论文笔记之:Instance-aware Semantic Segmentation via Multi-task Network Cascades的相关文章

论文笔记之:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation

  Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation   xx  

Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN)

可以看看:https://github.com/jinhang/fcn [论文信息] <Fully Convolutional Networks for Semantic Segmentation> CVPR 2015 best paper Reference link: http://blog.csdn.NET/tangwei2014 http://blog.csdn.net/u010025211/article/details/51209504 概览&主要贡献 提出了一种end-t

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53    这篇文章的 Motivation 来自于 MDNet:    本文所提出的 framework 为:                             

论文笔记: Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型:  2. Dual network 分别处理两路不同的网络,使得前景和背景更加具

Video Frame Synthesis using Deep Voxel Flow 论文笔记

  Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv    摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基

Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记

  Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记 ECCV 2016    摘要: 许多经典问题可以看做是 图像转换问题(image transformation tasks).本文所提出的方法来解决的图像转换问题,是以监督训练的方式,训练一个前向传播的网络,利用的就是图像像素级之间的误差.这种方法在测试的时候非常有效,因为仅仅需要一次前向传播即可.但是,

论文笔记之:Playing for Data: Ground Truth from Computer Games

  Playing for Data: Ground Truth from Computer Games ECCV 2016   Project Page:http://download.visinf.tu-darmstadt.de/data/from_games/index.html arXiv Paper : http://arxiv.org/pdf/1608.02192.pdf 摘要: 本文有意思哦,从游戏中的视频帧中得到新的训练数据,为什么用这些数据呢?众所周知,最近的计算机视觉很大程度

Face Aging with Conditional Generative Adversarial Network 论文笔记

Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28    Motivation: 本文是要根据最新的条件产生式对抗玩网络(CGANs)来完成,人类老年照片的估计. 主要是做了一下两个事情: 1. 根据年龄阶段,进行照片的老年估计,用 acGAN 网络来完成: 2. 提出一种 隐层变量优化算法(latent vector optimization approach),允许 acGAN 可以重构输入人脸