CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

雷锋网(公众号:雷锋网) AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions 一文进行的解读。

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception

V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

再将所有1*1的卷积进行拼接:

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream

Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

作者通过TensorFlow实现了Xception,并使用60块NVIDIA

K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception
V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

这篇文章中提及的Depthwise

Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized
Convolutional Neural
Networks,Xception,MobileNet和ShuffleNet等,以及ResNeXt一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise
Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise

Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception
V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2025-01-24 19:26:33

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍的相关文章

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

雷锋网(公众号:雷锋网) AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受. 论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文.业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像.3D视觉.运动追踪.场景理解.视频分析等方面都有许多

CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受. 论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网(公众号:雷锋网)(公众号:雷锋网) AI 科技评论近期挑选报道的获奖论文.业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像.3D视觉.运动追踪.场景理解.视频

CVPR 2017最佳论文解读:密集连接卷积网络

近几年来,随着卷积神经网络(CNNs)的迅速发展,学术界涌现出一大批非常高效的模型,如 GoogleNet.VGGNet.ResNet 等,在各种计算机视觉任务上均崭露头角.但随着网络层数的加深,网络在训练过程中的前传信号和梯度信号在经过很多层之后可能会逐渐消失.先前有一些非常好的工作来解决这一问题.如在 Highway 和 ResNet 结构中均提出了一种数据旁路(skip-layer)的技术来使得信号可以在输入层和输出层之间高速流通,核心思想都是创建了一个跨层连接来连通网路中前后层.在本文中

CVPR 2017最佳论文作者解读:DenseNet 的“what”、“why”和“how”|CVPR 2017

雷锋网 AI 科技评论按:CVPR 2017上,康奈尔大学博士后黄高博士(Gao Huang).清华大学本科生刘壮(Zhuang Liu).Facebook 人工智能研究院研究科学家 Laurens van der Maaten 及康奈尔大学计算机系教授 Kilian Q. Weinberger 所作论文<Densely Connected Convolutional Networks>当选 CVPR 2017 最佳论文,与苹果的首篇公开论文<Learning From Simulate

CVPR2017精彩论文解读:效果更显著的模型压缩算法和泛化优化算法

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是优必选悉尼AI研究院对其入选CVPR 2017的两篇论文<基于低秩稀疏分解的深度模型压缩算法>和<利用奇异值界定提升深度神经网络训练效果和识别精度>进行的解读,除此之外他们还对会上Workshop竞赛的进行了相关介绍. 基于低秩稀疏分解的深度模型压缩算法--On Compressing Deep Models by Low Rank and Sparse Decompos

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

雷锋网(公众号:雷锋网) AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是Momenta高级研究员陈亮对此次大会收录的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation  一文进行的解读. 随着激光雷达,RGBD相机等3D传感器在机器人,无人驾驶领域的广泛应用.针对三维点云数据的研究也逐渐从低层次几何特征提取( PFH, FPFH,VFH等)向高层次语义理

CVPR2017精彩论文解读:结合序列学习和交叉形态卷积的3D生物医学图像分割

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<结合序列学习和交叉形态卷积的3D生物医学图像分割>(Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation)一文进行的解读. 3D医学图像的切割的背景 3D医学图像的切割是医学图像处理里一个非常重要的工作,比如脑部MRI数据.肺

CVPR2017精彩论文解读:用于生物医学图像分析的精细调节卷积神经网络

雷锋网(公众号:雷锋网)AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<用于生物医学图像分析的精细调节卷积神经网络:主动性&增量性>(Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally)一文进行的解读. 文章介绍: 这篇主要针对医学图像处理领域标注数据匮乏的问题

ICML 2017最佳论文:为什么你改了一个参数,模型预测率突然提高了|分享总结

雷锋网 AI 科技评论按:正在进行的2017 机器学习国际大会(ICML 2017)早早地就在其官网公布了本次会议的最佳论文评选结果(重磅 | ICML 2017最佳论文公布!机器学习的可解释性成热点),其中最佳论文奖为<Understanding Black-box Predictions via Influence Functions>,其主题为如何利用影响函数理解黑箱预测.两位作者分别为Pang Wei Koh 和 Percy Liang. Pang Wei Koh是来自新加坡的斯坦福大