CVPR论文解读:非常高效的物体检测Mimic方法

雷锋网 AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研发工程师蒋云飞对此次大会收录的 Mimicking Very Efficient Network for Object Detection 一文进行的解读。

背景

Mimic作为一种模型小型化的方法,Hinton在 Distilling the Knowledge in a Neural Network 
一文中已经详细定义并介绍过,但近些年来大部分有关于mimic的论文主要都是局限在较为简单的classification
的任务中,而对于较为复杂一些的detection任务,直接套用以前的方案则显得不行。本文提出了一种学习feature map来实现Object
Detection任务上mimic的方法。

传统的Mimic过程,一般使用一个已经训练好的大模型,固定该模型的weights不变,设计一个小模型,学习大模型的soft
targets 或者logits的输出;大模型学习到有效的信息可以传递给小模型,使得小模型也可以有较为不错的性能表现,其Loss函数如下:

其中W为小模型的weights,g(x;W) 为小模型的输出,z为学习的大模型的输出。

然而直接套用该方法在检测任务中,效果很差,因此作者进行了进一步的探索。首先,对于常见的检测网络如Faster-RCNN、RFCN、SSD等进行分析,可以发现,它们主要包含两部分,分别为feature
extractor以及feature decoder。而不同的大网络主要是feature
extractor不同,因此作者认为对于feature map进行mimic,可以获得较为有效的结果。

Mimic方法详细叙述:

因此作者提出了本文的mimic算法,在使用本身ground-truth监督小模型训练的同时,加入大小模型之间feature map的监督,使得mimic的效果会更好。大致的流程如下图所示:

但同时作者也指出,单纯使小模型学习大模型的feature
map并不能work,原因在于feature map的维度太高,包含太多全局的信息,而对于仅有少量object的feature
map,通常只有微弱的响应。因此,该文中提出了一个新的卷积网络mimic方法,即将学习整个feature
map变为学习proposal采样之后的feature来简化任务。

在由小网络生成的proposal中,使用spatial pyramid pooling方法在大小网络上进行局部特征采样(后经作者指正为直接使用pixel-wise的学习),然后通过L2 loss减小二者之间的差别,loss function定义如下:

总的loss主要由两部分组成,分别为mimic loss 以及ground-truth loss,作者在实验中发现,对于mimic loss进行normalization可以取得更为稳定的mimic结果:

同时,作者还提到了对于小网络与大网络feature map大小不同的情况(譬如小网络中输入图像减半),可以增加一个转换层(deconvolution)使得大小网络最终mimic的层保持一致,如下图所示:

另外,在faster rcnn中stage2 fast rcnn的训练过程中,也可以添加大网络的监督信号(监督框的classification以及regression),使得小网络可以学习到更多大网络的有效信息,得到更好的结果。

结果分析:

作者在Caltech行人数据集以及PASCAL VOC 2007 数据集上进行了实验。

Caltech使用log average Miss Rate on False Positive Per Image作为评价标准,作者首先训练并得到了两个baseline检测网络:

同时,定义了mimic的小网络的结构为1/n-Inception 网络,网络的深度与层数没有改变,减小每层conv的channel个数,使得网络变得更细。

可以看到直接使用传统mimic方法训练模型,结果非常糟糕,甚至不及直接使用数据集对小网络进行训练:

而后作者使用本文方法进行Mimic训练,取得了较为可观的性能增长:

从上述结果中,可以看到使用mimic的结果取得了与原网络差不多甚至稍好的结果。

同理,在VOC数据集的测试结果中也可以看到,Mimic的方法取得了很有竞争力的结果。

现场问答

在2017 CVPR现场与论文的作者李全全进行的讨论与交流:

Q:本文为何使用 spatial pyramid pooling进行feature map的sample,是否考虑使用其他方式例如ROI-pooling?

A:经过李全全确认,他后期是直接使用ROI,也即两个feature map pixel-wise相减,而不是spatial pyramid pooling;使用SPP的效果理应是好于单size的pooling的(roi-pooling)。

Q:为何使用单层(最后一层)feature map进行mimic,是否可以融合多个feature map?

A:可以尝试融合多个feature
map
进行监督,理论上来说效果应该会比较好,但由于时间较为紧张,所以没有做。文中使用的normalization是为了稳定,因为每次出来的proposal的size是不断变化的,因此在计算loss的时候的pixel的数量也会发生较大的变化,因此需要使用normalization。

Q:为何使用 deconvolution,是否可以对feature map 直接进行线性缩放?

A:直接对于feature

map进行缩放是可行的。同时,这样的结构本身会在小物体的检测上比较有用。如果把deconv层独立成一个分支的话(deploy的时候去掉这个分支),效果可能比不上将这个小网络放大,目前看来,大的feature层对于小物体的检测还是比较有好处的。

Q:为何使用小网络生成的 proposal ,有没有尝试过直接使用 ground-truth boxes?

A:希望模型更多的是关注object在feature

map上有响应的地方,所以使用Top-proposal。具体来说,Top-proposal的方法中,proposal的数量设定在256或者512,正负样本比例设定在1:1;而使用GroundTruth的框来做监督的效果并不好,作者有进行过类似的实验:对于负样本来说使用random的sample,正样本直接使用GroundTruth,结果比使用top-proposal的方法差一些。

Q:有没有尝试过其他不同网络结构的mimic (更小或者更瘦长的)?

A:对于mimic来说,其实小网络本身有一个baseline,大网络有一个baseline,mimic的任务便是缩小两者之间的差别;而对于小网络来说,相似的网络会有较好的学习能力,当然对于不同结构的小网络也可以使用deconv的方式来进行学习。

论文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Mimicking_Very_Efficient_CVPR_2017_paper.pdf

雷锋网(公众号:雷锋网) AI科技评论编辑。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-30 09:29:27

CVPR论文解读:非常高效的物体检测Mimic方法的相关文章

CVPR论文解读 | 剁手有了新方法,明星同款边看边买

注:CVPR是由全球最大的非营利专业技术学会IEEE(电气和电子工程师协会)举办的计算机视觉领域的国际顶会,2017 CVPR收到超过2500篇论文投递,最终收录不到800篇,阿里巴巴集团iDST和AI LAB 有多篇论文被收录. 本文作者:方广 磐君 思淘 阿里巴巴iDST 视频分析团队被CVPR 2017收录的论文<从视频到电商:视频衣物精确检索>围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统.该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求.整个系统采用了目前最先进的

干货 | 算法工程师入门第三期——黄李超讲物体检测

雷锋网(公众号:雷锋网)按:地平线大牛讲堂算法工程师入门第三期重磅来袭!本期地平线深度学习算法工程师黄李超将为大家带来物体检测相关内容的分享,全文约8000字,建议阅读时间20分钟,欢迎转发或收藏. 前期传送门: 干货 | 算法工程师入门第一期--罗恒讲深度学习 干货 | 算法工程师入门第二期--穆黎森讲增强学习(一) 干货 | 算法工程师入门第二期--穆黎森讲增强学习(二) 本次分享主要针对一些对深度学习和物体检测感兴趣的同学.内容主要包括: 第一,什么是物体检测,如何去评价一个物体里系统的好

两届CVPR最佳论文得主何恺明新作:应对样本的不平衡分布,刷新密集物体检测表现上限

雷锋网 AI 科技评论按:CV大牛何恺明在Facebook人工智能实验室的新作,一起来围观! 何恺明博士,2007年清华大学毕业之后开始在微软亚洲研究院(MSRA)实习,2011年香港中文大学博士毕业后正式加入MSRA,目前在Facebook人工智能实验室(FAIR)实验室担任研究科学家.何恺明博士最让人印象深刻的是曾两次以第一作者身份摘得CVPR最佳论文奖(2009和2016),其中2016年CVPR最佳论文为图像识别中的深度残差学习(Deep Residual Learning for Im

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

雷锋网(公众号:雷锋网) AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受. 论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文.业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像.3D视觉.运动追踪.场景理解.视频分析等方面都有许多

CVPR 2017最佳论文解读:密集连接卷积网络

近几年来,随着卷积神经网络(CNNs)的迅速发展,学术界涌现出一大批非常高效的模型,如 GoogleNet.VGGNet.ResNet 等,在各种计算机视觉任务上均崭露头角.但随着网络层数的加深,网络在训练过程中的前传信号和梯度信号在经过很多层之后可能会逐渐消失.先前有一些非常好的工作来解决这一问题.如在 Highway 和 ResNet 结构中均提出了一种数据旁路(skip-layer)的技术来使得信号可以在输入层和输出层之间高速流通,核心思想都是创建了一个跨层连接来连通网路中前后层.在本文中

CVPR2017精彩论文解读:效果更显著的模型压缩算法和泛化优化算法

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是优必选悉尼AI研究院对其入选CVPR 2017的两篇论文<基于低秩稀疏分解的深度模型压缩算法>和<利用奇异值界定提升深度神经网络训练效果和识别精度>进行的解读,除此之外他们还对会上Workshop竞赛的进行了相关介绍. 基于低秩稀疏分解的深度模型压缩算法--On Compressing Deep Models by Low Rank and Sparse Decompos

深度学习在 iOS 上的实践 —— 通过 YOLO 在 iOS 上实现实时物体检测

本文讲的是深度学习在 iOS 上的实践 -- 通过 YOLO 在 iOS 上实现实时物体检测, 原文地址:Real-time object detection with YOLO 原文作者:Matthijs Hollemans 译文出自:掘金翻译计划 译者:Danny Lau 校对者:Dalston Xu ,DeepMissea 深度学习在 iOS 上的实践 -- 通过 YOLO 在 iOS 上实现实时物体检测 译者注: 在阅读这篇文章之前可能会遇到的一些名词,这里是解释(我自己也查了相当多的资

KDD论文解读 | 想要双11抢单快?靠这个技术提速9MS

6月29日,阿里巴巴在杭州召开2017天猫双十一发布会,宣布启动:双11超级IP计划.今年晚会将由北京卫视.浙江卫视.深圳卫视三台同时直播.淘宝直播.优酷等在内的多家平台同步跟上,让澳门.香港.新加坡等地也能同步收看天猫双11晚会,相信今年的双11一定会成为举世瞩目的全球狂欢节. 同时,为2016双11提供技术支持的团队也首次曝光了其研究成果,通过CLOSE排序算法,2016双11CPU的使用率降低了约45%,搜索的平均延迟下降了约30%(平均的搜索latency从33ms下降到24ms),同时

阿里AAAI2018论文解读:轻量网络训练框架、GAN中文命名实体识别、英俄翻译等

1. 火箭发射:一种有效的轻量网络训练框架<Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net> [团队名称]阿里妈妈事业部 [作者]周国睿.范颖.崔润鹏.卞维杰.朱小强.盖坤 [论文简介]像点击率预估这样的在线实时响应系统对响应时间要求非常严格,结构复杂,层数很深的深度模型不能很好的满足严苛的响应时间的限制.为了获得满足响应时间限制的具有优良表现的模型,我们提