论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification

Deep Attributes Driven Multi-Camera Person Re-identification 
2017-06-28  21:38:55  

 

  【Motivation】

  本文的网络设计主要分为三个部分:

    Stage 1: Fully-supervised dCNN training
    Stage 2: Fine-tuning using attributes triplet loss
    Stage 3:Final fine-tuning on the combined dataset

  

  大致的网络网络结构以及流程图,如下所示:

  从这里,可以大致看出本文 属性识别的方法:sem-supervised learning 的方法来提升 网络识别能力,之所以识别能力不强,是因为现有的 attribute dataset 都是非常小的,这就导致了 deep neural network 训练不够充分,而手工标注这些数据又非常的困难,耗时费力。比较尴尬。。。

  

  本文首先在全部标注的行人属性识别网络上进行 监督训练,以得到初始的【属性识别网络】,此时的识别网络能力是不足的,即:weak。如何进一步的提升属性识别的能力呢?本文考虑到这么一个现象【同一个人的属性,应该有类似的属性识别结果】,基于该观察,作者利用 triplet loss function,在 instance 的基础上进行属性识别能力的改进:

  【三元组的构建】

  1. select an anchor sample 

  2. select another positive sample with the same person ID ; 

  3. select a negative sample with different person ID. 

  

  而这部分网络训练的目标是:使得同一个人的属性输出结果尽可能的一致,而不同 instance 之间的属性输出结果差距尽可能的大,作者称该 triplet loss 为:attribute triplet loss。这部分的目标函数为:

  

  其中,D(.) 代表两个二元属性向量之间的距离函数,所以对应的损失函数可以表达为:

  

 

    其中 E 表示 triplet 的个数。

  但是,作者提到上述损失函数可能存在一些问题:the person ID label is not strong enough to train the dCNN with accurate attributes. Without proper constraints, the above loss function may generate meaningless attribute labels and easily overfit the training dataset U. 

  于是,作者在上述损失函数的基础上添加了几条规则化项:

  

 

  公式(4)不仅确保了同一个人拥有相似的属性,并且避免了meaningless attribute。

  

  【在组合的数据集上进行微调】:

  用第二部分得到微调后的网络,预测一部分无标签数据,并且将这部分无标签数据 和 原始标注好的数据,一起来微调 属性识别网络。

  

  最后,就是如何利用这些属性进行最终的再识别???

  其实就是依赖于 属性之间的差距,借用作者摘要当中的话来说就是:

  By directly using the deep attributes with simple Cosine distance, we have obtained surprisingly good accuracy on four person ReID datasets. Experiments also show that a simple distance metric learning modular further boosts our method, making it significantly outperform many recent works.  
  

  

 

时间: 2024-07-30 21:59:19

论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification的相关文章

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53    这篇文章的 Motivation 来自于 MDNet:    本文所提出的 framework 为:                             

论文笔记: Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型:  2. Dual network 分别处理两路不同的网络,使得前景和背景更加具

Video Frame Synthesis using Deep Voxel Flow 论文笔记

  Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv    摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基

Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记

  Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记 ECCV 2016    摘要: 许多经典问题可以看做是 图像转换问题(image transformation tasks).本文所提出的方法来解决的图像转换问题,是以监督训练的方式,训练一个前向传播的网络,利用的就是图像像素级之间的误差.这种方法在测试的时候非常有效,因为仅仅需要一次前向传播即可.但是,

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

Face Aging with Conditional Generative Adversarial Network 论文笔记

Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28    Motivation: 本文是要根据最新的条件产生式对抗玩网络(CGANs)来完成,人类老年照片的估计. 主要是做了一下两个事情: 1. 根据年龄阶段,进行照片的老年估计,用 acGAN 网络来完成: 2. 提出一种 隐层变量优化算法(latent vector optimization approach),允许 acGAN 可以重构输入人脸

论文笔记之:Pedestrian Detection aided by Deep Learning Semantic Tasks

Pedestrian Detection aided by Deep Learning Semantic Tasks CVPR 2015 本文考虑将语义任务(即:行人属性和场景属性)和行人检测相结合,以语义信息协助进行行人检测.先来看一下大致的检测结果(TA-CNN为本文检测结果): 可以看出,由于有了属性信息的协助,其行人检测的精确度有了较大的提升.具体网络架构如下图所示: 首先从各个数据集上进行行人数据集的收集和整理,即:从Caltech上收集行人正样本和负样本,然后从其他数据集上收集 ha

论文笔记之:Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach

  Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach  2017.11.28    Introduction: 人脸属性的识别在社会交互,提供了非常广泛的信息,包括:the person's identity, demographic (age, gender, and race), hair style, clothing, etc. 基于人脸属性识别的场景也越来越多,如:(i)video

Attribute2Image --- Conditional Image Generation from Visual Attributes 论文笔记

  Attribute2Image --- Conditional Image Generation from Visual Attributes     Target: 本文提出一种根据属性生成图像的产生式模型 .  有了具体属性的协助,生成的图像更加真实,降低了采样的不确定性. 基于这个假设,本文提出一种学习框架,得到了基于属性的产生式模型. 1. Attribute-conditioned Generative Modeling of Images.  3.1 Base Model: Co