复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法

最近,由复旦大学、清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) 被国际计算机视觉顶级会议ICCV 2017接收。论文标题为:DSOD: Learning Deeply Supervised Object Detectors from Scratch。

论文地址:https://arxiv.org/abs/1708.01241。论文代码:https://github.com/szq0214/DSOD。

论文在Arxiv放出之后,在社交网络上引起广泛关注。本文对这个工作做一个详细的解读。

目标检测存在的几个痛点

目标检测 (Object Detection) 作为一项重要的视觉任务广泛应用于自动驾驶、监控、医学图像检测等领域。众所周知,目前所有基于深度学习的目标检测方法都严重依赖于在ImageNet分类任务上预训练(pre-train)的模型作为初始权重。根据论文中的观点,这种预训练+微调(pre-train + fine-tune)的方式主要存在以下几个问题:

1、缺乏灵活性。在ImageNet上训练模型代价非常高昂,如果只使用公开的预训练的模型,将很难根据需要去灵活地调整模型结构。

2、Loss差异问题。由于ImageNet模型的类别和目标检测问题的类别分布差别较大,分类的目标函数和检测的目标函数也不一致,作者认为从预训练模型上微调(fine-tune)可能和检测问题的有一定的优化学习偏差. 这个偏差对于有限训练样本可能更突出。

3、问题域(domain)的不匹配。并不是所有检测任务都是在自然RGB图像上进行的,如医学图像、多谱图像的检测。目前能够作为预训练的大规模数据集几乎只有ImageNet,而在自然图片上预训练,由于domain的巨大差异,很难在医学图像等domain上有效地微调(fine-tune)。

那么有没有一种方法能够在完全脱离预训练模型的情况下达到state-of-the-art的性能呢?

借助CVPR2017最佳论文DenseNet特性

DSOD目的是为了解决这些痛点,该方法借助于DenseNet (CVPR2017 best paper) 隐式的deeply supervised的特性,结合其他一些设计原则,成功地实现了目标检测模型的从零开始训练(training from scratch)。这是目前已知的第一篇在完全脱离ImageNet 预训练模型的情况下使用深度模型l, 在有限的训练数据前提下能做到state-of-the-art效果的工作,同时模型参数相比其他方法也要小很多。

DSOD的完整结构图如下表1 :

表1. DSOD网络结构图

为了训练出性能更好的检测器,文章提出了如下几个网络设计原则:

原则一:无障碍的梯度回传

并不是所有框架都适合用来从头开始训检测器。作者发现像Faster-RCNN、R-FCN这类基于region-proposal的框架,由于存在ROI pooling layer, 该层类似于一个mask,使得梯度没法平滑的回传到前面层,因此从零开始训练的整个模型没法收敛(或者收敛较差)。而YOLO、SSD这类框架由于是proposal-free的结构,模型可以收敛,但是结果和预训练模型上微调有较大差距。

原则二:更深的监督信息

训练深度模型一个很常见的问题就是梯度消失。一个比较常用的减缓梯度消失问题的方法是在网络中间层插入side-output loss项,让网络靠近输入层的神经元也能接收到比较强的梯度信号。但是DSOD抛弃了这种显式的deep supervision结构,原因在于目前detection框架的loss项本身比较复杂,而且会使用多层feature来做检测,所以不太适合插入多个这样的loss项。DSOD采用了一种更加优雅的解决方案,通过借助dense block中每一层都会连接到后面层上去的特点,避免了training from scratch过程中梯度消失的问题。在DSOD中,除了主干网,预测层的结构也改变成dense的连接方式(见图1),该结构不仅能大量减少需要学习的模型参数,同时能进一步提升模型性能。

图1. DSOD预测层结构示意图

原则三:根(Stem)结构

根结构已经被应用于一些优秀的神经网络结构中,如google提出的Inception结构等。实验结果表明,stem结构可以有效地保护输入图片信息的丢失,从而训练出更加鲁棒的检测器。

以下是DSOD在PASCAL VOC 2007数据集上各部分有效性验证实验:

表2. 网络各部分有效性验证实验

更多细节大家可以去阅读原文。

表3是DSOD 在 PASCAL VOC 2007数据集上的“物体检测”对比实验结果(包括模型参数量,运行速度,输入图片大小,模型精度等):

表3. VOC2007 test set上的实验结果对比

从表中可以看出DSOD不仅模型参数更小 (仅为SSD的1/2, faster-rcnn的1/10),而且性能优于相同设置下的YOLOv2、SSD等。更重要的是DSOD模型不需要在ImageNet预训练,也就是说该模型训练图像其实比其他state-of-the-art的方法少用了120万张预训练图片!

下面是DSOD算法的一些实际的检测结果:

        

图2. 检测结果示例图

总结

在DSOD这篇论文中,作者首先分析了深度网络training from scratch存在的问题以及如何才能构建一个可以从零开始训练的检测器的网络,同时给出了非常详细的指导和设计原则帮助读者去构建这样的网络。

基于这些原则,作者提出了DSOD模型,该模型不仅参数更少(适合于手机、无人机等资源受限的设备)、性能更强,更重要的是不需要在大数据集(如ImageNet)上预训练,使得DSOD的网络结构设计非常灵活,根据自己的应用场景可以设计自己所需要的网络结构。


DSOD模型打破了传统的基于预训练+微调的检测器训练的藩篱,在有限数据集下,从零开始训练就能得到state-of-the-art的目标检测器,在自动驾驶、监控、医学图像、多谱图像等领域将会拥有非常广阔的应用前景。


文章转自新智元公众号,原文链接

时间: 2024-12-21 22:57:23

复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法的相关文章

自学习芯片、实时3D表情捕捉渲染,百倍DNN模型无损压缩 | 英特尔中国研究院媒体开放日

在人工智能的大背景下,这几年,说起芯片霸主英特尔,似乎总有一股时过境迁的味道.但是,"关于芯片霸主这个问题,判断是不是具有领先性,既不能看近期的市场营收,也不能只看媒体曝光的热度,应该要从一个长时期来看这家企业在整个芯片市场上的技术领先程度.对于下游厂商的支持程度,以及驱动整个生态系统的能力." 英特尔中国研究院院长宋继强说:"打个比方,如果一家芯片公司退出市场,这个世界会怎么样?大家可以想一下,有什么样的芯片企业是这个世界不能缺少的." 明年就是英特尔成立第50周

大咖|英特尔中国研究院院长宋继强:我们是如何与李宇春打造全球第一支三维人脸特效的音乐视频的

上个月底,李宇春一支据说筹备时间长达6个月的mv正式发布.这首基于英特尔人工智能技术的MV,将电子曲风的浪漫情歌与尖端科技结合,一上线即火遍全网.在11月15日刚刚结束的2017英特尔人工智能大会上,英特尔中国研究院院长宋继强揭秘了这支有三维人脸特效的音乐视频是如何实现的. 此外,英特尔全球副总裁兼中国区总裁杨旭本次大会上宣告了英特尔在人工智能领域的三大战略方向:创新技术.广泛合作.推动应用.本次大会以全栈作为核心关键词,发布了从前端到后端的一系列最新研究成果. 例如,英特尔在近期推出了BigD

英特尔中国研究院院长:中国成最大嵌入式市场

4月12日下午消息,作为英特尔研究院全球 5大节点之一,英特尔中国研究院将分工承担嵌入式应用的前瞻性研究任务.该院长方之熙表示,中国已经成为全球最大的嵌入式计算市场. "国内的嵌入式市场可能是全世界最大的一个嵌入式市场,并且是增长最快的.在全球的增长有的时候才31%,但是中国的增长差不多到了49%,接近50%了."方熙之说. 承担嵌入式研究职能的英特尔中国研究院研究范围涵盖了从应用/算法.系统软件.外围设备到硬件系统平台和通信的整个嵌入式系统,并首先在增强型多媒体技术(Advanced

贾斯汀:英特尔中国研究院专注云计算HPC等领域

CNET科技资讯网 4月12日 北京报道(文/梁钦):今日下午,英特尔北京国家会议中心举办了英特尔信息技术峰会(IDF)技术前瞻日. 会上,英特尔CTO贾斯汀指出,去年10月份,英特尔中国研发中心升级为英特尔中国研究院以来,英特尔内部花了6个月时间来制定新的研究战略.英特尔CTO贾斯汀在英特尔IDF技术前瞻日上演讲 贾斯汀表示,"英特尔研究院下辖 5大研究院,英特尔中国研究院是英特尔唯一一个以地域命名的研发中心.英特尔中国研究院面向中国及全球市场." 据悉,贾斯汀管辖的英特尔研究院旗下

英特尔中国研究院逐渐将自己的研究方向定位为嵌入式系统研究

在升级为英特尔全球第五个研究院后,英特尔中国研究院逐渐将自己的研究方向定位为嵌入式系统研究,而该团队也在不断扩大.其院长方之熙表示,研究院要长期做嵌入式系统,并会充分利用在中国的环境.英特尔中国研究院各部门和实验室总监也在近日首次亮相,目前主要的几个实验室为嵌入式应用实验室.软件实验室.输入输出技术实验室.互联嵌入式技术研究室和架构实验室.该团队也在继续扩大,最近几个月期间,英特尔中国研究院还引入了技术管理部总监王允臻.嵌入式架构实验室总监尚笠.首席科学家王元陶三名高管."我们的目标是要成为世界

英特尔中国研究院专注嵌入式技术

网易科技讯 11月8日消息,在升级为英特尔全球第五个研究院后,英特尔中国研究院逐渐将自己的研究方向定位为嵌入式系统研究,而该团队也在不断扩大.其院长方之熙表示,研究院要长期做嵌入式系统,并会充分利用在中国的环境.英特尔中国研究院各部门和实验室总监也在近日首次亮相,目前主要的几个实验室为嵌入式应用实验室.软件实验室.输入输出技术实验室.互联嵌入式技术研究室和架构实验室.该团队也在继续扩大,最近几个月期间,英特尔中国研究院还引入了技术管理部总监王允臻.嵌入式架构实验室总监尚笠.首席科学家王元陶三名高

英特尔中国研究院院长方之熙称将主攻嵌入式

CNET科技资讯网 4月12日 北京报道(文/梁钦):今日下午,英特尔北京国家会议中心举办了英特尔信息技术峰会(IDF)技术前瞻日. 英特尔中国研究院院长方之熙在会上透露,英特尔中国研究院根据自身的特点及 中国市场的发展趋势,将主攻嵌入式相关领域研究. 方之熙还透露,先进视频系统研究是当前英特尔中国研究院全院重点短期重点. 据方之熙介绍,先进视频系统研究包括嵌入式应用研究(人脸识别与物体检测:视频检测与分析算法:三维建模).互连嵌入式系统研究(交互式视频系统:高效的电视-云通信).嵌入式系统软件

英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法

雷锋网(公众号:雷锋网)按:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为"动态外科手术"算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题.利用该算法,我们可以轻易地将LeNet和AlexNet这两个经典网络的参数总量分别压缩108倍和17.7倍. 英特尔中国研究院于近期提出了一种名为"动态外科手术"的神经网络压缩算法,获得了业内的广泛关注以及国内外专家的高度评价.利用该方法,研究人员可以在保证原始模型性能不降的前提下大幅度压缩网络结构.让我们

方之熙卞成刚晋升为英特尔中国副总裁

方之熙卞成刚新浪科技讯 4月11日上午消息,英特尔今天宣布两名英特尔中国高管晋升为副总裁,方之熙晋升为英特尔研究院副总裁兼英特尔中国研究院院长,卞成刚晋升为英特尔技术与制造事业部副总裁兼英特尔产品(成都)有限公司总经理.方之熙博士于1995年加入英特尔,并于2010年成为英特尔中国研究院院长.英特尔中国研究院是英特尔研究院全球五大节点之一,也是美国本土之外重要的研究机构,主要从事嵌入式领域的研究.卞成刚于1998年加入英特尔,并于 2009年开始担任英特尔产品(成都)有限公司总经理.英特尔全球一