复旦大学Ph.D沈志强:用于目标检测的DSOD模型

目标检测作为一个基础的计算机视觉任务,在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集(如ImageNet)上预训练初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇论文中,作者通过分析深度检测模型从头训练存在的问题,提出了四个原则,他们根据这些原则构建了DSOD模型,该模型在三个标准数据集(PASCAL VOC 07, 12和COCO)上都达到了顶尖的性能。这篇论文已被ICCV2017收录。

在近期雷锋网 AI研习社的线上分享会上,该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读,与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强,复旦大学Ph.D,UIUC ECE系访问学者,导师Thomas S. Huang教授。研究兴趣包括:计算机视觉(目标检测、视频描述、细粒度分类等),深度学习,机器学习等。他曾在因特尔中国研究院(Intel Labs China)进行为期一年的实习研究,期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容:

很高兴与大家分享我们的最新的工作DSOD,这篇论文已经被ICCV 2017 所收录。

众所周知,计算机视觉有几个比较重要的分类,包括目标分类、定位、目标检测、实例分割,前两个分类是针对单个目标,后两个分类是针对多个目标,DSOD主要是针对目标检测。

说到目标检测,大家可能会想到如下几个比较有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

ImageNet预训练模型的限制:一是模型结构是固定的,你不可能改变它的结构,二是会有learning bias,三是会出现domain不匹配的情况。我们的思路是从头训练检测器,但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

简单回顾下Rol pooling,如下图所示:

它其实就是一个max pooling:

可以在下图中看到forward和backward情况,把Rol pooling去掉这个框架就类似于YOLO和SSD。

几个原则:一是Proposal-free。去掉Rol pooling,虽然对模型的表现影响不大,但这一点非常重要。

二是Deep Supervision。采用Dense Block,能避免梯度消失的情况。

三是Dense Prediction Structure。大大减少了模型的参数量,特征包含更多信息。

四是Stem Block。采用stem结构,好处是能减少输入图片信息的丢失。

下面是DSOD整体结构:

这是我们做的一些对比实验,可以看到增加这些结构之后性能提升的百分点:

下面是在PASCAL VOC2007上的实验结果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验,可以看到Faster-RCNN和R-CNN均以失败告终,最后的一行的实验加入COCO后mAP值提升,说明DSOD模型本身的泛化能力非常强。

下面是在PASCAL VOC2012上的实验结果,可以看到DSOD有不错的mAP值。

接下来是在COCO上面的一些结果,对比起来DSOD的也有很好的性能。

最后是一些实际的检测结果,可以看到bounding box对目标的检测非常贴合。

论文地址: https://arxiv.org/abs/1708.01241

代码:https://github.com/szq0214/DSOD

模型可视化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning,主要是做视频描述。在视频当中包含很多内容,而这些内容并不一致,因此视频描述相对来说会比较困难。下图是一些示例。

网络结构如下图所示。具体细节大家可以参见我们的论文Weakly Supervised Dense Video Captioning,论文地址:https://arxiv.org/abs/1704.01502

接下来是我们在ICCV 2017上的工作,主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型,然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文Learning Efficient Convolutional Networks through Network Slimming,论文地址:https://arxiv.org/abs/1708.06519

本文作者:Non

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-12-02 19:49:57

复旦大学Ph.D沈志强:用于目标检测的DSOD模型的相关文章

一文读懂深度学习框架下的目标检测(附数据集)

从简单的图像分类到3D位置估算,在机器视觉领域里从来都不乏有趣的问题.其中我们最感兴趣的问题之一就是目标检测. 如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法.在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题. 目标检测 vs 其他计算机视觉问题图像分类 在计算机视觉领域中,最为人所知的问题便是图像分类问题. 图像分类是把一幅图片分成多种类别中的一类.  ImageNet是在学术界使用的最受欢迎的数据集之一,它由数百万个已分类图像组成,部分数据用于Im

复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法

最近,由复旦大学.清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) 被国际计算机视觉顶级会议ICCV 2017接收.论文标题为:DSOD: Learning Deeply Supervised Object Detectors from Scratch. 论文地址:https://arxiv.org/abs/1708.01241.论文代码:https://github.com/szq0214/DSOD. 论文在Arxiv放出之后,在社交网络上引起广泛关注.本文对这个工作做

目标检测101:一文带你读懂深度学习框架下的目标检测

从简单的图像分类到3D位置估算,在机器视觉领域里从来都不乏有趣的问题.其中我们最感兴趣的问题之一就是目标检测. 如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法.在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题. 目标检测 vs 其他计算机视觉问题图像分类 在计算机视觉领域中,最为人所知的问题便是图像分类问题. 图像分类是把一幅图片分成多种类别中的一类. ImageNet是在学术界使用的最受欢迎的数据集之一,它由数百万个已分类图像组成,部分数据用于Ima

ILSVRC2016目标检测任务回顾:图像目标检测(DET)

雷锋网(公众号:雷锋网)注:本文作者李瑜,中科院计算所前瞻研究实验室跨媒体组硕博士生,硕士导师唐胜副研究员,博士导师李锦涛研究员.2016年,作为360+MCG-ICT-CAS_DET团队核心主力参加了ImageNet大规模视觉识别挑战赛(ILSVRC)的 DET任务并获得第四名.目标检测相关工作受邀在ECCV 2016 ImageNet和COCO视觉识别挑战赛联合工作组会议上做大会报告. 计算机视觉领域权威评测--ImageNet大规模图像识别挑战赛(Large Scale Visual Re

阿里妈妈副总裁江志强谈中小网站如何实现盈利

  江志强于2007年5月加盟阿里巴巴集团,担任集团副总裁一职,负责集团在全国的媒体销售业务.他致力于整合集团公司媒体广告营销资源,从而为广告主提供整合创新的服务. 江先生在互联网领域经历丰富,曾先后于Acer旗下宏网集团.雅虎奇摩和网易等公司担任要职,在电子商务.广告销售和营销服务策划等领域锐意创新,业绩出众.他近年来积极倡导整合性网络营销服务,时时从全媒体视角提出引领市场趋势的新思路.投身互联网领域前,江先生在 台 湾 和信传播集团任职. 由于在网络营销领域的资深经验,江先生连续三年担任中国

同济吴志强:可持续发展的智慧同济校园

本文讲的是同济吴志强:可持续发展的智慧同济校园,7月3日,"智慧校园:腾讯QQ'互联网+'教育服务战略合作签约仪式"在北京腾讯汇成功举办.会上,腾讯QQ正式推出"互联网+教育"的智慧校园整体解决方案,并同北京邮电大学.同济大学.华南理工大学.大连理工大学.华东师范大学五所高校签署战略合作协议.未来腾讯QQ与各高校将会在校务管理移动化.校内消费数字一体化.校园大数据挖掘与信息化建设等搭建"智慧校园"方面进行深度合作. 教育部科技司副司长雷朝滋.腾讯

专访联想CTO贺志强:应用程序商店5月推出

联想CTO贺志强 1月29日消息,联想集团首席技术官贺志强在接受新浪科技专访时表示,联想集团将在今年5月左右推出网络应用程序商店,这是联想集团布局移动互联网的重要举措之一. 在贺志强看来,两个重要的改变正影响着联想集团未来的发展趋势."一个是从互联网到移动互联网,一个就是个人计算从台式电脑再到笔记本再到手持,这两个趋势决定了联想的未来是一定要在移动互联网上有大的动作,一定要有大的市场份额." 联想移动互联网产品的研发布局开始于2006年,如今终于正式推出多款产品,贺志强显然颇为兴奋.专

任志强不回应网友很欢乐

近日,深圳英联不动产董事长郭建波约赌任志强.郭建波认为,http://www.aliyun.com/zixun/aggregation/18604.html">一线城市楼价的全面下跌行情即将开始,如果到明年3月中国楼市能走出任志强说的又一波上涨行情,他将在明年两会开幕时在长安街裸奔10公里.这次,一向习惯开炮的任志强表现非常淡定,一直未作回应:广大网友反应却很热烈,回复的评论达数千条,其中大部分支持任志强. 挺任派 @潘石屹:任总,沉住气.千万不要回应. @放牧的星星:其实几年下来,该有无

任志强:保障房缺失使无支付能力家庭被赶入市场

住房公共产品的10年缺失,使那些没有支付能力.应该受到政府保障的家庭被赶入市场 文/本刊记者 赵沛楠 2007年8月国务院发布了<关于解决城市低收入家庭住房困难的若干 意见>(国发[2007]24号,以下简称24号文),这是住房保障政策体系的一个纲领性文件.<意见>明确给出了3种供给关系:一是高收入或中高收入家庭用市场化方式.商品化的方式解决住房问题:二是中等或中等偏下收入的家庭靠半市场化的经济适用住房解决住房问题:三是低收入家庭靠政府廉租房解决住房保障问题. 在接受<中国投