从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域

本文讲的是从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域,


今秋,在以水城而闻名的威尼斯,来自世界各地的三千多位学者荟萃一堂,共赴两年一度的国际计算机视觉大会 (ICCV)。这次大会的一个重要亮点就是中国学者的强势崛起。根据组委会公开的数字,会议 40% 的论文投稿来自中国的研究者。在中国的人工智能浪潮中,商汤科技以及它与港中文的联合实验室无疑是其中最有代表性的力量。在本届 ICCV 大会,商汤科技与香港中大-商汤科技联合实验室共发表了 20 篇论文,其中包括 3 篇 Oral (录取率仅 2.09%) 和 1 篇 Spotlight,领先 Facebook(15 篇)、Google Research(10 篇)等科技巨头。

ICCV 是计算机视觉领域最高水平的国际学术会议,在其中发表的论文的量与质可以衡量一个公司或者研究机构的学术水平,以及其对未来科技发展潮流的把握。从商汤科技的 20 篇论文中,可以看到其在研究上重点发力的四大主线:

跨模态分析:让视觉与自然语言联合起来

在过去几年,随着深度学习的广泛应用,计算机视觉取得了突破性的发展,很多传统任务(比如图像分类,物体检测,场景分割等)的性能大幅度提高。但是在更高的水平上,计算机视觉开始遇到了新的瓶颈。要获得新的技术进步,一个重要的方向就是打破传统视觉任务的藩篱,把视觉理解与自然语言等其它模态的数据结合起来。商汤科技很早就捕捉了这一趋势,并投入重要力量进行开拓,取得了丰硕成果。在这一方向上,有 4 篇论文被 ICCV 2017 录用,包括一篇 Oral。

Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral).

Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin. 

看图说话,也就是根据图像生成描述性标题,是今年来非常活跃的研究领域。现有的方法普遍存在一个问题,就是产生的标题很多是训练集中的表述的简单重复,读起来味同嚼蜡。这一问题的根源在于学习目标过分强调与训练集的相似性。这篇论文提出了一种新型的基于 Conditional GAN 的训练方法,把描述生成模型与评估模型合同训练。这样,评估的标准从「像不像训练集」变成「像不像人说话」,从而驱动生成模型产生更加自然、生动,并具有丰富细节的描述。这一工作为看图说话任务提供了新的思路。在 User Study 中,这种新的方法以 6:4 的胜率战胜了传统的方法。

另外两篇 paper 则从相反的方向思考,力图利用相关文本的信息来帮助提高视觉理解的能力。

Scene Graph Generation from Objects, Phrases and Caption Regions.

Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

这篇论文把三个有密切关系的任务——物体检测,场景图生成,以及图像区域的描述联合在一起,并且利用它们之间的关系建立了一个多层次的场景描述模型——Multi-level Scene Description Network (MSDN)。通过这个联合模型,传统上分离开来的三个任务可以结合在一起进行端对端的训练,从而使得每个任务都获得性能的提升。尤其在代表对图像综合理解能力的场景图生成任务上,性能提高超过了 3%。

Learning to Disambiguate by Asking Discriminative Questions.

Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。

Identity-Aware Textual-Visual Matching with Latent Co-attention.

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。

视频分析:让计算机看懂视频

虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在内的多种有很大影响并被广泛应用的视频分析架构,并在 ActivityNet 2016 取得了冠军。在 2017 年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在 ICCV 2017 发表了两项重量级的工作,包括一篇 Oral。

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)

Wenbin Du; Yali Wang; Yu Qiao.

通常的视频分析模型大部分是基于 video-level 的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。

Temporal Action Detection with Structured Segment Networks.

Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin

时域上的动作检测是近两年兴起的新型视频分析任务。相比于传统的动作分类,这个任务更具有挑战性,不仅需要判断一个运动或者事件的类型,还需要获得它的准确起止时间。这个任务在实际场景中有很大的潜在价值,比如它可以从长时间的运动视频或者电影中自动定位到相关的精彩片段。这篇论文提出了一种新型的视频动作检测模型,它在 TSN 的基础上引入了三段结构模型以更有效地捕捉运动起始段与终结段的特征。基于这一架构,动作分类器与时间定位器可以端到端联合训练。这个方法在多个大型视频数据集上(包括 THOMOS 和 ActivityNet)取得了比现有方法超过 10 个百分点的提升。

生成对抗网络:让计算机学习创作

最近两年,由于生成对抗网络(Generative Adversarial Networks)的提出,生成模型(generative model)的学习成为一个新兴的研究方向。和传统的鉴别模型(discriminative model)主要关注信息提炼不同,生成模型需要从零开始,或者基于信息量非常有限的给定条件,产生出完整的图像,因此特别具有挑战性。这个研究方向在消费领域具有巨大的应用价值,同时它也可以通过产生训练样本的方式反哺传统领域的研究。商汤科技在这个新兴领域也积极开展研究,取得不少新的成果,并在 ICCV 2017 发表了两项相关工作,包括一篇 Oral。

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

生成高质量的图像是生成模型研究的核心问题。这篇文章提出了一个新型的生成框架,StackGAN,它能够根据简短的文字描述生成解析度为 256 x 256 的高质量图片。生成如此高解析度的照片是一个极具挑战性的问题,此前的生成模型通常只能产生大小为 64 x 64 的图片。本文提出的方法把这个困难的任务分解为两个阶段。在第一阶段,先根据文字描述产生粗粒度的草图,以第一阶段的结果作为输入,第二阶段产生高解析度的图像,并补充丰富的细节。此文还进一步提出了一种新型的条件增强技术,以改进训练过程的稳定性。和现有的生成网络相比,StackGAN 在生成图片的质量的解析度上获得了非常显著的进步。

Be Your Own Prada: Fashion Synthesis with Structural Coherence.

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy

这篇文章探索了一个极具应用价值的方向,把生成模型引入时尚领域:提出一种崭新的方法产生换装照片。具体而言,给定一个人的照片,以及对换装的描述,此文提出的方法可以根据对换装的描述,比如「黑色的短袖长裙」,产生换装后的照片。和一般的生成任务相比,换装任务更具挑战性,换装照不仅需要符合文字描述,而且需要和原照片中人体的姿态相吻合。此文提出一个两阶段的框架解决这个问题:第一阶段产生一个和人体姿态吻合的分区图,第二阶段以此为基础生成具有精细细节的服装图像。

除了在新兴方向上积极开拓,商汤科技在一些重要的核心领域,包括人脸检测、物体检测、人体姿态估计、实际场景中的身份再识别等,也持续投入,精益求精,在本届 ICCV 发表多篇相关论文。

商汤科技 ICCV 2017 论文列表:

1. 「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

2. 「Scene Graph Generation from Objects, Phrases and Caption Regions」. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

3. 「Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention」. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

4. 「Learning Feature Pyramids for Human Pose Estimation」. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

5. 「Learning Chained Deep Features and Classifiers for Cascade in Object Detection」. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

6. 「Identity-Aware Textual-Visual Matching with Latent Co-attention」. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

7. 「Towards Diverse and Natural Image Descriptions via a Conditional GAN」. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

8. 「Temporal Action Detection with Structured Segment Networks」. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin.

9. 「Learning to Disambiguate by Asking Discriminative Questions」. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

10. 「Be Your Own Prada: Fashion Synthesis with Structural Coherence」. Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy.

11. 「Recurrent Scale Approximation for Object Detection in CNN」. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

12. 「Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification」. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

13. 「Multi-label Image Recognition by Recurrently Discovering Attentional Regions」. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

14. 「HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis」. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

15. 「Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals」. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

16. 「Deep Dual Learning for Semantic Image Segmentation」. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

17. 「Detecting Faces Using Inside Cascaded Contextual CNN」. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

18. 「Single Shot Text Detector With Regional Attention」. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

19. 「RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos」. Wenbin Du, Yali Wang, Yu Qiao.

20. 「Range Loss for Deep Face Recognition With Long-Tailed Training Data」. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.






本文作者:奕欣

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-18 16:20:54

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域的相关文章

阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

本文讲的是阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入, ICCV,被誉为计算机视觉领域三大顶级会议之一的.作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平.阿里巴巴在今年的 ICCV 2017上有多篇论文入选. 本文是阿里iDST与西安电子科大.西安交大等合作的 ICCV 2017 论文解读<基于层次化多模态LSTM的视觉语义联合嵌入>(Hierarchical Multimodal LSTM for Dens

商汤科技43篇论文横扫2017全球顶级视觉学术会议 实习生摘得五项世界冠军

华人学者7月在夏威夷CVPR 掀起的中国风尚未完全褪去,近日又在水城威尼斯ICCV 引爆中国学术研究风暴.中国最大新锐AI企业商汤科技与香港中大-商汤科技联合实验室,继以23篇论文横扫CVPR后,又以20篇论文力压群雄称霸ICCV. 据了解,CVPR和ICCV是2017年度举办两大全球顶级视觉学术会议,商汤科技43篇的论文发表量,领先于谷歌.Facebook等国际巨头,居亚洲第一. 科学家豪门"出贵子" 商汤培养实习生有道 随着深度学习和计算机神经网络的快速发展,人工智能企业想要形成技

周博磊知乎热答:如何评价何恺明大神斩获ICCV 2017最佳论文

2017年10月24日下午,Facebook AI 研究员何恺明大神斩获ICCV 2017最佳论文,这是他第三次斩获顶会最佳论文,对于Kaiming He 在 ICCV 2017 上拿下双 Best的paper,他的中大同学,另一位大神周博磊在知乎写了一段他眼中的凯明师兄. 大数据文摘经周博磊授权,发布这篇文章,看看大神眼中的大神是什么样? 其实从他发Dark Channel那篇论文开始,我就挺关注他的研究工作.那时候还是前Deep Learning时代的计算机视觉,一切都还不怎么work,还流

【商汤科技23篇论文横扫CVPR】林达华教授重磅揭秘冠军论文

国际计算机视觉与模式识别大会 (CVPR) 是人工智能尤其是计算机视觉领域的顶级学术会议.今年CVPR的文章录取率大约29%.在CVPR上发表的论文被公认为代表了该领域科技发展的最高水平.从今年7月21日开始这个一年一度的盛会就在美丽的夏威夷火奴鲁鲁召开.本届CVPR大会商汤科技与香港中大-商汤科技联合实验室共发表了23篇论文,超过了以人工智能技术著称的科技巨头Google (21篇)和FacebookAI Research (7篇).这23篇论文涵盖了计算机视觉的多个领域,不仅提出了很多新型的

港科大KDD 2017录用论文作者详解:基于异构信息网络元结构融合的推荐系统

在KDD 2017上,香港科技大学计算机系博士生赵欢作为第一作者的论文 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research track接收并做口头报告.经雷锋网 AI 科技评论邀请,赵欢为雷锋网独家供稿,分享了团队此项研究的核心思想.算法框架及实验结果. 作者介绍 本文主要介绍 KDD 2017 的一篇有关推荐系统的论文:「Meta-Graph Based Recomm

ICCV 2017 spotlight论文解读:如何提高行人再识别的准确率

一.背景简介 近年来,行人再识别问题(Person-reID)研究热度逐渐上升.与人脸识别相比,它在采集图像时不需要行人主动配合,在安防等领域具有极大的应用潜力.基于深度学习的行人再识别方法,在近几年快速进步,在绝大部分公开数据集上,深度学习特征均超过了手工设计特征.这篇文章的工作主要围绕利用如何更好地学习的深度特征,提高行人再识别的准确率进行.然而,这篇文章实际上没有具体针对行人再识别的特有问题进行分析.优化,笔者认为该方法在小数据集问题上,该方法具有一般性意义,并且,该方法对CNN特征的物理

【ICCV 2017华人雄起】何恺明包揽两项最佳论文,40%投稿来自中国

计算机视觉顶会ICCV 2017各大奖项公布:何恺明包揽两项最佳论文奖:贾扬清率Caffe团队获"无私贡献奖":DeepMind CEO 哈萨比斯导师Tomaso Poggio获得终身成就奖.沿袭CVPR的势头,ICCV 2017华人表现依然强劲,有40%的投稿来自中国,清华大学投稿数量在所有机构中位居第一. 两年一度的计算机视觉领域顶会ICCV 2017正在意大利威尼斯召开.由于计算机视觉及相关领域的快速发展,本届ICCV参与度创历史新高,共收到2143篇论文投稿,比上届增加了26%

CCL 2017最佳论文公布,看全国计算语言学前沿研究

10 月 14 日.15 日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL 2017)暨第五届自然标注大数据的自然语言处理国际学术研讨会(NLP -NABD 2017)于江苏南京召开. 本次会议共收到 264 篇投稿,录用 105 篇论文,录用率为 39.77%,共有超过 700 名计算语言学研究者和其他领域的专家学者参与本届会议,参会人数为历届最多. 大会主席,中国工程院院士倪光南在开幕式上致辞. 他表示,语言是信息最重要的载体,只有计算机有处理语言的能力时,计算机才

商汤研发总监林倞:20张PPT谈四大领域产业布局|2016 CAIIC

编者按:12月17日,中国人工智能产业大会在深圳召开,商汤科技首席研发总监林倞出席大会并发表演讲.他主要讲述了商汤科技在原创性技术上的深厚积累及在四大领域的产业布局. 林倞,商汤科技首席研发总监,中山大学教授,国家优秀青年基金获得者.2008年博士毕业于北京理工大学,分别于2006-2007.2008-2010年在美国加州大学洛杉矶分校学习和工作(合作导师为朱松纯教授),2014-2015年在香港理工大学.香港中文大学访问.长期从事视觉感知计算与智能学习相关领域的研究,在物体/场景结构化解析.深