雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR
2017已经落下帷幕,但对精彩论文的解读还在继续。下文是优必选悉尼AI研究院对其入选CVPR
2017的两篇论文《基于低秩稀疏分解的深度模型压缩算法》和《利用奇异值界定提升深度神经网络训练效果和识别精度》进行的解读,除此之外他们还对会上Workshop竞赛的进行了相关介绍。
基于低秩稀疏分解的深度模型压缩算法——On Compressing Deep Models by Low Rank and Sparse Decomposition
深度学习极大地促进了人工智能的发展,同时也带来了新的挑战:深度神经网络往往需要消耗巨大的存储和计算资源。这极大地限制了深度学习在计算能力有限的平台(如移动手机)上的应用。深度模型压缩旨在挖掘并去除深度神经网络中参数和特征的冗余信息,从而达到减少网络参数,降低存储和计算量的目的。以往的很多压缩算法基于低秩分解法和剪枝法,但是压缩效果还有待继续提升。这篇论文通过对参数矩阵的可视化观察和研究,发现参数矩阵往往同时具备低秩与稀疏的性质。如图1所示,低秩部分包含了大量的光滑分量,而稀疏部分含有诸如方向的重要信息。因此,优必选悉尼AI研究院提出了基于低秩稀疏分解的压缩算法。
图1:参数矩阵的低秩稀疏分解,低秩与稀疏矩阵参数数目减少至原始矩阵的1/4
为了解决最终精度急剧下降的问题(如图2),这篇论文进一步提出了一种非对称的特征重建方法,该方法使得压缩网络的最终输出与原始网络的输出接近,从而降低精度损失。
图2:逐层的分解近似造成误差累积
另外,这篇论文提出了一种新的GreBdec算法,该算法极大地加速了分解运算。它还显著地降低了经过参数矩阵近似后的网络的精度损失(图3)。同时,在精度损失很小的情况下,将AlexNet和GoogLeNet分别压缩至原来的1/10和1/4.5(如表1)。
图3: 重新训练前的压缩率与精度对比,新的方法优于剪枝法和奇异值分解
表1:重新训练后的压缩率与精度对比
利用奇异值界定提升深度神经网络训练效果和识别精度——Improving training of deep neural networks via Singular Value Bounding
深度学习是近年来图像识别、语音分析、自然语言处理等人工智能领域取得突破性进展的关键技术。但是,目前主流深度学习模型还是基于随机梯度下降进行优化的。在优化过程中,对深度模型参数(权重矩阵)解的性质并没有明确的认识和目标。基于以上考虑,本工作通过对深度线性网络的理论分析及深度非线性网络的实验分析,大胆推断在深度模型的整个优化过程中保持权重矩阵(近似)正交(如图4所示),从而更有效地实现学习目标,提升网络的精度和泛化能力。同时,本工作进一步提出奇异值界定(Singular
Value Bounding)的算法,在不增加或少量增加计算量的情况下近似而快速地实现了权重矩阵的正交约束。
图4:深度网络权重矩阵流形优化示意图(左);本工作提出奇异值界定(Singular Value Bounding)算法,近似而快速地实现了权重矩阵的正交约束(右)
批量标准化(Batch
Normalization)是实现现代超深网络有效训练的关键性技术,但其具有使得网络各层高维特征空间各个方向信息(前向和后向)传递不均衡的潜在风险。基于与上文类似的考虑,本工作进一步提出了有界批量标准化(Bounded
Batch Normalization)算法,从而有效实现批量标准化技术和奇异值界定算法的无缝连接。
本工作提出的奇异值界定和有界批量标准化算法能够用于包括卷积网络、残差网络(ResNet)、宽残差网络(Wide
ResNet)、稠密连接网络(DenseNet)等在内的各种主流网络架构。在CIFAR和ImageNet等图像识别标准评测数据库上,奇异值界定和有界批量标准化算法能够对这些网络进行显著且稳定的精度提升,并在CIFAR数据库上取得目前世界领先的识别准确率。
图5:基于宽残差网络(Wide ResNet),本工作提出的奇异值界定(Singular Value Bounding)和有界批量标准化(Bounded Batch Normalization)算法取得在CIFAR图像识别标准评测数据库上领先的识别准确率
CVPR
2017有两个Workshop,对应了两个机器视觉的竞赛,分别是ILSVRC 2017(ImageNet Large Scale Visual
Recognition Challenge 2017)和VQA(Visual Question Answering)。
ILSVRC
2017就是著名的ImageNet的竞赛,今年是最后一届。其中任务三是视频物体检测(Object Detection from
Video)竞赛,包括四个项目:给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪。优必选悉尼AI研究院与帝国理工学院组成的联合队伍IC-USYD都以领先第二名超过5%的成绩取得了第一名。在VQA竞赛中,优必选悉尼AI研究院与杭州电子科技大学、北卡罗来纳大学夏洛特分校组成联合队伍HDU-USYD-UNCC也取得了好成绩。
ILSVRC
2017视频物体检测竞赛主要考察在视频中获取物体的能力,对于机器人而言这是一项非常重要的工作,例如它在行走过程中就能知道这个场景里有多少物体,有什么物体。人眼看到的视觉不是一张张照片,而是连续的视觉信息,未来机器人的视觉系统也将是对连续视觉的理解。试想一下,在家庭环境中,你可以对机器人说“请给我一杯水”,机器人理解了这句话之后,在移动过程中,视觉系统就会寻找这杯水在哪里,接着去取水并递给你。
而VQA(视觉问答,Visual
Question
Answering)以一张图片或者一段视频,和一个关于这张图片的形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是对给定的图片进行问答。这也是未来机器人通过视觉系统认知和理解世界,并与人互动的关键技术。VQA是一种涉及计算机视觉和自然语言处理的学习任务,也是近年来非常热门的一个研究领域,也是AI落地的一项重要技术领域。
VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术(图6):细粒度识别(这位女士是白种人吗?)、
物体识别(图中有几个香蕉?)、行为识别(这位女士在哭吗?)和对问题所包含文本的理解(NLP)。综上所述,VQA是一项涉及了计算机视觉(CV)和自然语言处理(NLP)两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。
图6:图中展示了视觉问答的基本形式,图中展示了一位女士鼻子下方胡须的位置挂了两只香蕉,同时图片下方给出了针对这张图片的两个问题
与VQA类似——看图说话(Image
Caption)任务也同时涉及到CV和NLP两个领域,但是与VQA不同的是,看图说话只需要产生对图片的一般性描述,而视觉问答根据问题的不同仅聚焦于图片中的某一部分,而且某些问题还需要一定的常识推理才能做出回答。例如图7中的第一个问题,你能在这停车吗?计算机需要读懂这张图片还有哪些地方可以停车,哪些地方不可以。而对于看图说话,则只需要产生一条类似“花园的左边有一辆车,后边有一个消防栓”的描述即可。因此,VQA相比看图说话在图像语义的理解方面有更高的要求,因此也具有更大的技术挑战。
图7:这张图像试图说明“回答这个地方是否能停车”(VQA任务)比生成“花园的左边有一辆车,后边有一个消防栓”的看图说话(Image Caption)任务更难
本文作者:思颖
本文转自雷锋网禁止二次转载,原文链接