当微软研究院遇上CVPR,四篇论文抢鲜看 | CVPR 2017

雷锋网AI科技评论按:CVPR全称为“IEEE Conference on Computer Vision and Pattern
Recognition”(计算机视觉与模式识别会议),是计算机视觉与模式识别领域最有影响力的国际学术会议之一。CVPR将于2017于7月21日至7月26日举行,雷锋网AI科技评论将从夏威夷带来一线报道。该会议举办期间,雷锋网(公众号:雷锋网)将围绕会议议程及获奖论文展开系列专题报道,敬请期待。

论文一:《StyleBank: An Explicit Representation for Neural Image Style Transfer》

论文作者:Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua

论文链接:https://arxiv.org/abs/1703.09210

论文摘要:

据雷锋网了解,该项工作提出了一种基于神经网络的SytleBank算法。该算法的用途顾名思义就是用于图像风格迁移(Image
style transfer)。StyleBank由许多的卷积滤波器堆(Convolution filter
banks)组成,并且每一个滤波器堆(Filter
bank)代表了一种图像风格。为了将一张图像风格转换成特定的画风,与之相对应的滤波器堆将被应用于由单个自动编码器(Auto-encoder)生成的中间特征嵌入(Intermediate
feature embedding)上。

图一,展示了该论文采用的网络结构,它包含有3个模块:图像编码器、负责风格转换的StyleBank层和图像解码器。

据悉,StyleBank和自动编码器将以联合的方式同时进行学习训练。然后由于采用了显示滤波器堆表征(Explicit
filter bank
representation)这一结构所带来的灵活性,使得网络在学习过程中,自动编码器不需要对任何图像风格信息进行编码。

图二,展示了从风格化后图像中的两种代表性补丁中学习到的风格重构。

另外该结构也使得我们能够在网络上实现增量学习(Incremental

learning),也就说,我们可以在保持自动编码器不变的情况下通过学习全新的滤波器堆的方式,给网络添加全新的图像风格。显式的风格表征(Explicit
style representation)以及灵活的网络设计,使得我们不仅能在图像级别(Image
level)融合风格,而且在更细微的区域级别(Region level)也能实现画风融合。

图三,经典图像的风格化结果,包含了四部分不同的颜色或纹理。

同时,该项工作所提出的方法也是第一个借鉴了传统的文本映射方法(Texton mapping methods)的风格迁移网络,从而为基于神经网络的风格迁移研究提供了新的思路。此外,该方法还具有很多其它的优点,比如:容易训练、实时运行、生成的图像效果较好。

论文二:《Deep Quantization: Encoding Convolutional Activations with Deep Generative Model》

论文作者:Zhaofan Qiu, Ting Yao, Tao Mei

论文链接:https://arxiv.org/abs/1611.09502

论文摘要:

深度卷积神经网络(Deep
convolutional neural networks,
CNNs)已经被证实了对于处理视觉识别问题的有效性,而其中从卷积层的激活中学习通用表示(Universal
representation)则是一个更加根本的问题。据雷锋网了解,在这项由梅涛老师指导的研究工作中,研究员们提出了使用变分自动编码器(Variational
AutoEncoder, VAE)的Fisher
Vector编码(FV-VAE),这是一种全新的深度架构。该架构通过端到端(End-to-end)的方式进行训练,以实现量化深度生成模型(Deep
generative model)中卷积层的局部激活。

图一,展示了来自CNN不同卷积层激活的可视化表示。第一行,全连接层的全局激活;第二行,采用Fisher Vector编码的卷积激活;第三行,采用FV-VAE编码的卷积激活。

为了将FV编码策略纳入到深度生成模型中,研究员们引入了变分自动编码器模型,该模型引导了神经网络中的变分推理和学习,并且可以使用标准的随机梯度下降法直接进行优化。与通过简单地将离散混合模型拟合为数据分布的常规生成模型(例如,高斯混合模型)来表征的FV不同,该论文中所提出的FV-VAE能够更加灵活地表示出数据的自然特性,并且具备更好的泛化能力。最后,研究员们在视频动作识别(Video
action recognition)和细粒度图像分类(Fine-grained image
classification)两项任务中,分别在UCF101、ActivityNet和CUB-200-2011三个公共数据集上进行了大量的实验。与目前最新的其它同类方法相比,实验结果表现优秀。而最显著的是,FV-VAE在UCF101数据集上达到了94.2%的准确率,这一数值是当前最佳。

论文三:《Collaborative Deep Reinforcement Learning for Joint Object Search》

论文作者:Xiangyu Kong, Bo Xin, Yizhou Wang, Gang Hua

论文链接:https://arxiv.org/abs/1702.05573

论文摘要:

该篇论文的研究员研究了在互动场景下,多个对象的联合自顶向下主动搜索(Joint
top-down active
search)的问题,例如,骑自行车的人,放在桌上的杯子等。研究员认为在互动场景中,对象之间的交互通常可以为彼此提供上下文提示,利用这一信息将有助于提高搜索的效率。据悉,通过将每个检测器作为智能代理,该论文第一个提出了协作多智能代理(Collaborative
multi-agent)的深度强化学习算法,在有效利用这些有益的上下文信息的基础上,学习联合主动对象定位(Joint active
object localization)的最优策略。

图一,展示了联合智能代理检测(Joint
agent detection)与单一智能代理检测(Single agent detection)的结果比较。边框(Bounding
box)的轨迹通过颜色渐变来展示。蓝色用于人物而红色用于自行车。其中成功的检测结果通过加粗的绿色边框进行强调。当采用联合智能代理检测时,在15次迭代之内便检测到了自行车和小孩;当采用单一智能代理检测时,即便在200次迭代之后依然没有正确定位到自行车(图中只显示了前30次迭代)。

该论文中,通过Q-networks之间的门控交叉连接来学习多智能代理间通信,而这一点的实现则依赖于具有联合开发采样(Joint
exploitation sampling)的新型多智能代理深度Q-learning学习算法。论文的研究员在多对象检测基准(Multiple
object detection benchmarks)中验证该方法。最后,实验表明该模型不仅有助于提高最新的活跃定位模型(Active
localization models)的性能,还能揭示直观可解释的有趣的联合检测模式(Co-detection patterns)。

论文四:《Neural Aggregation Network for Video Face Recognition》

论文作者:Jiaolong Yang, Peiran Ren, Dongqing Zhang, Dong Chen, Fang Wen, Hongdong Li, Gang Hua

作者主页:https://www.microsoft.com/en-us/research/people/jiaoyan/

论文链接:https://arxiv.org/abs/1603.05474

论文摘要:

本文提出了一种用于视频中人脸识别的神经聚合网络(Neural
Aggregation Network,
NAN)。据悉,该网络将人脸视频或者人脸图像集(这些人脸数据中关于某一个人的人脸图像数量可变)作为输入,然后生成可用于识别的紧凑且维度固定的特征表示。整个网络由两大模块组成。

图一,展示了视频人脸识别的网络架构。所有的人脸图像输入{xk}都在特征嵌入模块通过CNN进行处理了,然后生成一组特征向量{fk}。然后这些特征将被传送给聚合模块,以便于生成一个单一的128维的向量r1,并以此作为输入人脸的表征。之后该表征将被用于人脸识别。

特征嵌入模块(Feature
embedding
module)是一个深度卷积神经网络(CNN),它的作用是将每张人脸图像映射到一个特征向量。而另一个模块是聚合模块(Aggregation
module),它由两个注意力块(Attention
blocks)组成,注意力块能够自适应地聚合特征向量,以便于在两个块所跨越的凸包中形成单个特征。同时因为注意力机制的引入,图像顺序将不影响聚合的结果。该论文所提出的NAN受到标准分类或验证损失的训练,并且没有任何额外的监督信号。然后还发现了,NAN能够自动学会偏向采用高质量的人脸图像而排斥低质量的人脸,比如模糊、遮挡和曝光不当的面部图像。通过在IJB-A、YouTuBe
Face、Celebrity-1000这三个视频人脸识别基准上的实验表明,NAN始终优于朴素聚合方法(Naive aggregation
methods),并且也刷新了准确率。

本文作者:隔壁王大喵

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-03 07:06:08

当微软研究院遇上CVPR,四篇论文抢鲜看 | CVPR 2017的相关文章

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一.2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道. 论文一:ResNext:Aggregated Residual Transformations for Deep Neural Networks 深层神经网络的聚合残差变换 论文作者:Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1,

微软研究院—下一个25年该往哪走?

微软研究院(Microsoft Research,英文缩写:MSR)是微软在1991年创立硏究不同的计算机科学主题与问题的分部,微软研究院称其坚持的一个目标为"支持长期的计算机科学硏究而不受产品周期所限". 上周在华盛顿州雷德蒙市,包括微软联合创始人比尔·盖茨在内的顶尖学者和研究科学家回顾了计算机科学在过去25年取得的成就,并且展望了未来25年他们对于微软研究院的期待. 第25届微软研究院周年纪念恰逢一年一度的职工峰会,这次大会共有600个前沿学者以及研究人员参加.作为目前世界顶尖的研

微软研究院诞生25年,牛在哪里?

微软研究院成立25周年了!自1991年创立以来,微软研究院为微软贡献了不少研究成果,这也许是比尔·盖茨创立研究院之初也没能想到的.或许有些用户会问,微软研究院主要都研究什么呢?不妨由我们为你科普一下! 目前,微软研究院拥有超过1000多名科学家.工程机以及设计师,他们每天都在通过创新的软件.系统和设计方法,研发出可改变用户生活的技术.值得一提的是,微软研究院中拥有大量图灵奖.麦克阿瑟奖.菲尔兹将以及Dijkstra Prize得主,他们为向微软贡献了众多奇思妙想. 在过去25年,微软研究院发表了

本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一.2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道. 李飞飞就职于斯坦福大学计算机科学系,目前为斯坦福大学人工智能实验室.斯坦福视觉实验室.丰田汽车-斯坦福人工智能研究中心负责人,同时也是Google云端人工智能暨机器学习首席科学家. 本次CVPR上,李飞飞团队共有8篇论文成功入选,以下是CVPR 2017 Li Fei Fei作为作者的论文摘要

微软亚洲研究院在已有的微软对联平台上推出了一个新功能——微软猜字谜

摘要: 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因为没人出字谜,一是因为没有人帮忙解字谜. 最近,微软亚洲研究院在已有的微软对联平台上推出了一个新功能--微软猜字谜.当用户输入谜面后,系统自动分析,迅速给出谜底.更有

专访微软研究院张正友:从“张氏标定法”到人机交互,20年视觉技术的探索

张正友博士,是世界著名的计算机视觉和多媒体技术的专家,ACM Fellow,IEEE Fellow.他在立体视觉.三维重建.运动分析.图像配准.摄像机自标定等方面都有开创性的贡献. 张正友带领的微软研究院视觉团队在学术研究上做了大量的工作,除了在顶尖会议(比如CVPR.ICCV.ACM Multimedia.ICME)上发表了大量文章和几部专著,而且在微软很多产品里都有团队的贡献,比如Windows.Office.Xbox.Kinect.Skype for Business.Office Len

当数据智能遇上工业制造

云栖TechDay第32期,阿里云数据业务总架构师周卫天带来主题是"当数据智能遇上工业制造"的演讲.本文主要从DT时代的开启开始谈起,接着分析了智能工业智能化.融合化和人性化的三大趋势,然后着重分享了阿里工业在智能化.融合化和人性化的实践,包括协鑫光伏实践.货运列车智能故障检测和飞机发动机智能健康管理等案例.   以下是精彩内容整理: DT时代用DT实现DT 用DT来实现DT比较有趣,第一个DT代表数据的技术,第二个DT代表数字化的转型.当数据智能碰到工业制造的时候,根据我自己的一些观

微软研究院芮勇谈计算视觉:从感知到认知的长征

2016 CCF大数据与计算智能大赛于2016年9月24日在中国·北京梅地亚中心酒店开幕. 微软亚洲研究院常务副院长,著名人工智能专家芮勇在大会上带来了<计算视觉:从感知到认知的长征>的主题报告.芮勇理性分析了最近大热的人工智能和计算机视觉,并提出了计算机视觉发展的三大基石和未来可能的四大发展方向. 他认为,计算机视觉在从感知到认知的过程当中,想要做的更好需要靠三方面:一是机器学习算法的本身,第二个和具体应用相结合,三是获取更有意义的数据. 大数据文摘为您带来一手演讲实录,以下为芮勇演讲全文:

快速浏览Silverlight3 Beta:当HLSL遇上Silverlight

HLSL高级着色器语言(High Level Shader Language,简称HLSL),由微软拥有及开发的一种语言,只能供微软的Direct3D使用. HLSL是微软抗衡GLSL的产品,同 时不能与OpenGL标准兼容.他跟Nvidia的Cg非常相似. 看了上面的几行话,可能大家还不是很清楚这个东西与当前的Silverlight的关系.其实在园子里的兄弟发过这篇文章,介绍"silverlight3滤镜效果". 而其在源码中所使用的.ps文件(注:这里不是powershell呀),