论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

 

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

2017-04-11  19:40:22 

 

Motivation:

  本文主要是考虑了在光照极端恶劣的情况下,如何充分的利用 thermal data 进行协助学习提升 可见光图像的 特征表达能力,而借鉴了 ICCV 2015 年的一个文章,称为:监督迁移的方法,以一种模态的特征为 label,以监督学习的方式实现无监督学习。说到这里可能比较让人糊涂,什么叫:以监督学习的方式实现无监督学习?说道监督学习,因为这里 training RGB modal 是以监督学习的方式进行训练的,因为标签是以 thermal 提取出来的特征为调整的目标(称为 target label)。说到无监督学习,其实这里没有用到人工标注的数据,只是用到了网络提取出来的 thermal feature, 而这就是比较好的地方了。这也是那个 Supervised Transfer 文章的主要卖点,而这里作者将其应用到 multi-modal 的情况下。

  

 

 

  所以,很自然的就可以知道网络的大致设计:

  1. 首先要有特征的跨模态迁移,算是第一阶段:

  

 

 

    那么,可以看到上图就是刚刚讲的 监督学习的方式进行特征迁移的过程。

 

  2. 有了这个增强的特征,我们就可以利用这个进行黑暗环境下的行人检测了:

  看到这个网络的设计,主要是原始特征和后续增强特征的组合了,然后进行最终的 bounding box regression 以及 softmax 分类。

  从而完成整个行人检测算法。效果之所以有提升,主要在于第二个网络提供了更好的 黑暗环境下从 thermal data 那里学习到的 feature。

 

  

  这就是文章的主题思想了。。。。

  

  作者在两个数据集上做了相关的实验。。。具体结果见原文了。

  

  Reference:

  1. Learning Cross-Modal Deep Representations for Robust Pedestrian Detection. In CVPR, 2017. 

  2. S. Gupta, J. Hoffman, and J. Malik. Cross modal distillation for supervision transfer. In CVPR, 2016. 

  3. J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016 

 

   

时间: 2024-10-24 00:50:29

论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection的相关文章

论文阅读之:Is Faster R-CNN Doing Well for Pedestrian Detection?

  Is Faster R-CNN Doing Well for Pedestrian Detection? ECCV 2016   Liliang Zhang & Kaiming He     原文链接:http://arxiv.org/pdf/1607.07032v2.pdf Code : https://github.com/zhangliliang/RPN_BF/tree/RPN-pedestrian     摘要:行人检测被人 argue 说是特定课题,而不是general 的物体检测

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53    这篇文章的 Motivation 来自于 MDNet:    本文所提出的 framework 为:                             

论文笔记之:Pedestrian Detection aided by Deep Learning Semantic Tasks

Pedestrian Detection aided by Deep Learning Semantic Tasks CVPR 2015 本文考虑将语义任务(即:行人属性和场景属性)和行人检测相结合,以语义信息协助进行行人检测.先来看一下大致的检测结果(TA-CNN为本文检测结果): 可以看出,由于有了属性信息的协助,其行人检测的精确度有了较大的提升.具体网络架构如下图所示: 首先从各个数据集上进行行人数据集的收集和整理,即:从Caltech上收集行人正样本和负样本,然后从其他数据集上收集 ha

Video Frame Synthesis using Deep Voxel Flow 论文笔记

  Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv    摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基

论文笔记: Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型:  2. Dual network 分别处理两路不同的网络,使得前景和背景更加具

论文笔记之:Progressive Neural Network Google DeepMind

  Progressive Neural Network  Google DeepMind   摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic forgetting (灾难性遗忘) --- 对于达到 human-level intelligence 仍然是一个关键性的难题.本文提出的 progressive networks approach 朝这个方向迈了一大步:他们对 forgetting 免疫,并且可以结合 prior know

Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记

  Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记 ECCV 2016    摘要: 许多经典问题可以看做是 图像转换问题(image transformation tasks).本文所提出的方法来解决的图像转换问题,是以监督训练的方式,训练一个前向传播的网络,利用的就是图像像素级之间的误差.这种方法在测试的时候非常有效,因为仅仅需要一次前向传播即可.但是,

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

Face Aging with Conditional Generative Adversarial Network 论文笔记

Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28    Motivation: 本文是要根据最新的条件产生式对抗玩网络(CGANs)来完成,人类老年照片的估计. 主要是做了一下两个事情: 1. 根据年龄阶段,进行照片的老年估计,用 acGAN 网络来完成: 2. 提出一种 隐层变量优化算法(latent vector optimization approach),允许 acGAN 可以重构输入人脸