论文笔记之:DeepCAMP: Deep Convolutional Action & Attribute Mid-Level Patterns

 

DeepCAMP: Deep Convolutional Action & Attribute Mid-Level Patterns

CVPR 2016

 

  本文提出一种 分割图像 patch 的方法,因为细粒度的分类问题,如:行人动作识别 和 行人属性识别等等。

  Appearance Overview 

  本文提出一种利用 mid-level 深度视觉模式 进行动作和属性分类,这是属于细粒度分类任务。我们的一个想法是:一个较好的 embedding 可以改善聚类算法的质量。我们设计了一种迭代算法,在每次迭代中,我们通过训练一个新的 CNN 来对上一次迭代得到的 cluster labels 进行分类,以此来改善 embedding。此外,我们相信结合人物整体的信息和 context 以及 图像 patch 的特定动作和属性标签可以改善 mid-level elements 的clusters。所以,我们从 AlexNet 网络结构上进行改进,以结合 patch 和 global image 的 feature。实验表明,利用这种新的结构学到的 embedding 性能超过了仅仅使用 patch images 微调后的 AlexNet 网络结构。

  此外,在每次迭代过程中,我们通过移除 poorly scored patches 来改善 clusters。作者提到本文的两个贡献点为:

  1). design an iterative algorithm contains an expert patch CNN to improve the embedding ;

  2). proposing new patch CNN architecture training to use context in clustering the patches.

 

  Pipeline Details

  1. Initial feture extraction and clustering.

    第一个模块 利用 MDPM 对image patches 进行 聚类。

  2. Train patch clusters CNN.

    我们主要的意识认为 图像 patches 的表示在聚类上扮演了重要的角色。假设初始的聚类是合理的,在这个模块,我们训练一个新的 CNN 来改善表示。训练这个新的 CNN 的目的就是当给定图像 patch的时候,可以预测 cluster 的 label。这里就和之前的那个 CNN 区别开来,之前的那个是为了 classify bounding box images to different action categories. 我们相信利用判别性的 patch cluster CNN results 学习这个细粒度的分类可以得到一个更好的聚类表示。  

  Updating clusters

  既然已经用新训练的 CNN 学习了表示,那么我们利用 MDPM算法再一次的更新 clusters 以得到一个更好的 clusters 的集合来匹配新的表示。由于在 MDPM 中进行 mid-level clusters 的填充是非常耗时的,我们固定住 第一层的聚类,然后通过重复 re-clustering 和 利用新的表示融合来更新 clusters。这个可以得到更好的聚类,最后,我们训练新的 LDA 分类器来检测 clusters。为了进行 re-clustering而改进的 MDPM在 4.1节进行了描述。

  Harvesting patches.

  为了改善 clusters 的纯度,我们通过移除不适合任何 cluster的patches来清理 clusters。我们通过阈值化 LDA 分类器为每一个cluster产生的置信值来达到此效果。最终,we pass the new patches with associate cluster labels to learn a new CNN based representation. 

 

  3. Mid-level Deep Patterns Network

  说实话,感觉看到这里,感觉整个流程写的挺混乱的。我哩个去。。。让我先整理下思路。。。懵逼了。。。

  



  Experience 

  

   

 

 

 

 



  我的感受:

    夜深了,我要入睡了。。。

    明天再 bb

 

 

 

 

 

 

时间: 2024-09-29 16:46:35

论文笔记之:DeepCAMP: Deep Convolutional Action & Attribute Mid-Level Patterns的相关文章

论文笔记: Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型:  2. Dual network 分别处理两路不同的网络,使得前景和背景更加具

论文笔记之:Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

  Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks NIPS 2015    摘要:本文提出一种 generative parametric model 能够产生高质量自然图像.我们的方法利用 Laplacian pyramid framework 的框架,从粗到细的方式,利用 CNN 的级联来产生图像.在金字塔的每一层,都用一个 GAN,我们的方法可以产生更高分辨率的图像.      

论文笔记之:Deep Attention Recurrent Q-Network

Deep Attention Recurrent Q-Network 5vision groups     摘要:本文将 DQN 引入了 Attention 机制,使得学习更具有方向性和指导性.(前段时间做一个工作打算就这么干,谁想到,这么快就被这几个孩子给实现了,自愧不如啊( ⊙ o ⊙ ))   引言:我们知道 DQN 是将连续 4帧的视频信息输入到 CNN 当中,那么,这么做虽然取得了不错的效果,但是,仍然只是能记住这 4 帧的信息,之前的就会遗忘.所以就有研究者提出了 Deep Recu

论文笔记之: Hierarchical Convolutional Features for Visual Tracking

  Hierarchical Convolutional Features for Visual Tracking  ICCV 2015   摘要:跟卢湖川的那个文章一样,本文也是利用深度学习各个 layer 之间提取出来的不同特征进行跟踪.因为各个层次提出来的 feature 具有不同的特征.并且将各个层级的特征用现有的 correlation filter 进行编码物体的外观,我们在每一个层上寻找最佳响应来定位物体. 引言:老套路的讨论了现有的跟踪问题存在的挑战以及现有方法取得的一些进展,并

论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification

Deep Attributes Driven Multi-Camera Person Re-identification 2017-06-28  21:38:55      [Motivation] 本文的网络设计主要分为三个部分: Stage 1: Fully-supervised dCNN training Stage 2: Fine-tuning using attributes triplet loss Stage 3:Final fine-tuning on the combined

论文笔记之:Deep Reinforcement Learning with Double Q-learning

  Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract  主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimat

论文笔记之:Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition

  Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition   细粒度的识别(Fine-grained recognition)的挑战性主要来自于 类内差异(inter-class differences)在细粒度类别中通常是局部的,细微的:类间差异(intra-class differences)由于姿态的变换而导致很大.

论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding

  Deep Metric Learning via Lifted Structured Feature Embedding CVPR 2016    摘要:本文提出一种距离度量的方法,充分的发挥 training batches 的优势,by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. 刚开始看这个摘要,有点懵逼,不怕,后面会知道这段英文是啥意思的.

论文笔记之:Deep Recurrent Q-Learning for Partially Observable MDPs

  Deep Recurrent Q-Learning for Partially Observable MDPs     摘要:DQN 的两个缺陷,分别是:limited memory 和 rely on being able to perceive the complete game screen at each decision point.  为了解决这两个问题,本文尝试用 LSTM 单元 替换到后面的 fc layer,这样就产生了 Deep Recurrent Q-Network (