微软亚洲研究院资深研究员梅涛:原来视频可以这么玩了! | CCF-GAIR 2017

7月9日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的CCF-GAIR
2017全球人工智能与机器人峰会进入了第三天。在CV+专场首场,微软亚洲研究院资深研究员梅涛博士为大会带来了题为《Video Content
3C: Creation, Curation, Consumption》的分享,即视频的创造、处理和消费。雷锋网(公众号:雷锋网)对梅涛博士的演讲内容梳理如下:

为什么要讲视频的内容,梅涛博士提到如下几点。

  • 一,视频跟图像相比信息更丰富,处理起来也更富挑战性;
  • 二,大家近来看到比较多的是视觉领域比如人脸、安防方面的进展,而视频(尤其是短视频)相对来说是比较崭新的领域;
  • 三,他本人从事视频分析的研究和产品已经十多年了,在这十几年里,几乎人人都说视频是下一个风口,今天看来这个说法似乎也是成立的。

在传统的视觉理解的方法里,要做视觉问题基本上分三个步骤:

  • 第一,理解一个物体,比如说识别一个桌子,首先要检测一个关键点(比如角、边、面等);
  • 第二,人为设计一些特征来描述这些点的视觉属性;
  • 第三,采用一些分类器将这些人为设计的特征作为输入进行分类和识别。

“现在的深度学习,尤其是在2012开始,图像理解的错误率在不断降低,深度神经网络也从最早的8层到20多层,到现在能达到152层。我们最新的工作也表明,视频理解的深度神经网络也可以从2015年3D CNN的11层做到现在的199层。”

梅涛博士也在演讲中表示,视频内容的生命周期大致可以分为三个部分,即视频的创作、处理和消费:

creation

要讨论视频的创作,这里面涉及到一个基本概念,那就是视频的产生原理。“Video的产生是先把Video切成一个一个的镜头,可以看成是一个一个断码,然后每一个镜头再组合编成一个故事或场景,每一个镜头还可以再细成子镜头,每个子镜头可以用一个关键帧来代表。通过这种分层式结构可以把一段非线性的视频流像切分文章一样进行结构化,这种结构化是后面做视频处理和分析的基础。通过这种结构化将视频分解成不同的单元,就可以做视频的自动摘要,即将一段长视频自动剪辑为精彩的短视频,或将一段长视频用一些具有高度视觉代表性的关键帧表示。这些摘要使得用户对长视频的非线性快速浏览成为可能。”

梅涛博士表示,微软目前将视频摘要的技术用在了Bing的视频搜索里,现在全世界有八百万的Bing用户通过一种叫multi-thumb的技术,可以快速预览每一个视频搜索结果。

此外,微软研究院研发的PIX是一个全新的相机app,它可以在你按下拍摄按键的同时就对拍摄的视频进行实时处理,可以将一段抖动的视频变得平稳,还可以自动判断视频中静止和动态的像素,生成 loopy video animation。

curation

当用户有了视频之后,研究者要做的事情是给视频片段打上标签,这样后面的搜索就可以基于标签搜到视频的内容里面去。“我们最近的工作可以对视频内容打上1000多个静态标签和超过500个以上的动作标签。我们设计的P3D(pseudo
3D resent)是专门为视频内容理解而精心设计的3D残差网络。”

做图像分析目前最好的深度神经网络是微软亚洲研究院在2015年提出的152层的残差网络(ResNet),目前最深可以做到1000层。但是在视频领域,专门为视频设计的最有效的3D
CNN目前才11层。为了解决这一问题,梅涛博士表示,团队最近借用ResNet的思想,将3D CNN的层数做到了199,识别率能在UCF
101数据集上比之前的3D CNN提高6到7个百分点。这一对视频进行自动标签的技术,将会被使用在微软的Azure云服务中。

实现了视频自动标签技术外,梅涛博士还阐述了团队“更进一步”的研究工作:用一段连贯通顺的自然语言,而不是孤立的单个标签,来描述一段视频内容。

“比如给定这段视频,我们能不能生成一句话来描述这个Video?以前我们说这个Video是一个舞蹈,现在可以告诉你这是一群人在跳一段什么舞蹈,这个技术就叫Video Captioning。这个技术使得自动生成视频的标题成为可能。”

微软亚洲研究院目前把这个技术用在了聊天机器人的自动评价功能里,例如微软小冰,当用户上传视频给小冰,它会夸赞对方。在这个技术上线一个月后,小冰在某视频网站上的粉丝数涨了60%。当然,小冰现在还可以根据图片内容写现代诗,将来我们希望小冰能够根据视频来写诗。

“我们也可以将Video进行编辑,加上滤镜,或是做风格的转换,把自然的Video变得非常卡通。Video中的人物分割出来可以放到另外一个虚拟的场景里面去。你可以想象,当两个人在异地谈恋爱的时候,我们能够给他一个房间,让他们在同一个房间里、在星空下、在安静湖面上的一艘小船上进行聊天。

另外,我们也可以提供storytelling的服务,让原始的、没有经过任何编辑和处理的image、video集合变成一段非常吸引人的、有一定设计感和视觉感的故事,这段视频demo就是机器自动产生的效果。加上人工的处理,视频就可以变得更加时尚。”

consumption

视频的消费往往和广告紧密相关。梅涛提到,做Video广告有两个问题需要解决:第一个问题是广告到底放在Video的什么位置;第二个问题是选什么样的广告,这个广告跟你插入点的信息是不是相关,使得用户接受度更加好。

他们的解决方案是将Video进行分解,并计算出两种度量,一个是discontinuity,衡量一个广告插入点的故事情节是否连续;另一个是attractiveness,衡量一段原始视频的内容是否精彩。对这两种度量进行不同的组合就可以满足符合广告商(advertiser)或用户(viewer)的需求。

最后梅涛总结道,在做科研的人看来,AI也好,深度学习也好,落地都有很长的路要走。“虽然计算机视觉已经发展了50多年,虽然现在AI炒的很火热,但做科研和技术的,还是要脚踏实地去解决一个个的场景和一个个底层的基础难题。”

雷锋网AI科技评论原创文章,更多详细的演讲内容参见雷锋网AI科技评论后续报道。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-01 14:25:13

微软亚洲研究院资深研究员梅涛:原来视频可以这么玩了! | CCF-GAIR 2017的相关文章

二十一世纪的计算 | 微软亚洲研究院洪小文54页PPT讲述人工智能和人类智能的 “共进化”

雷锋网(公众号:雷锋网)按:本文根据洪小文在"二十一世纪的计算"学术研讨会所做的报告<Co-Evolution of Artificial Intelligence and Human Intelligence>编辑整理而来,在未改变原意的基础上略有删减. 近日,"二十一世纪的计算"学术研讨会在韩国首尔举行.它是微软亚洲研究院自成立之初便开始举办的年度学术盛会.作为中国及亚太地区规模最大.最具影响力的计算机科学教育与研究盛会之一,迄今为止该大会已在中国.

从微软亚洲研究院到旷视科技,我是如何在大公司和创业公司做研究的? | CCF-ADL 火热报名

他被美国权威技术期刊 Technology Review 评选为" 2010 全球 35 岁以下杰出青年创新者": 他在国际顶级学术会议和期刊上发表的论文总数超过 100 篇,被 Google Scholar 引用超过两万次,两次获得 CVPR Best Paper Award (2009, 2016): 他带领的团队曾获得图像识别国际大赛五项冠军(ImageNet分类,检测和定位,MS COCO检测和分割): 他曾加入微软亚洲研究院(Microsoft Research Asia),

微软亚洲研究院铸就未来“青教”之星

十位博士获得中国计算机学会优秀论文奖,该奖项由微软亚洲研究院赞助,旨在激励计算机领域博士研究生潜心钻研,为国家计算机领域发展贡献力量. 本报记者 李国敏 微软亚洲研究院常务副院长郭百宁表示:"铸星计划"的意义,在于帮助大部分的优秀青年学者,顺利留在高校,留在国内继续他们的科研之路. 说起参加微软亚洲研究院"铸星计划"的经历,中国科学技术大学孙光中老师感触深刻. 作为一名普通青年教师,在数月的访问期间,他不仅全面地了解了微软亚洲研究院--这家世界一流计算机研究机构的日

微软亚洲研究院创新日2013活动在北京举办

摘要: 基于Kinect的手语翻译系统展示 近日,微软亚洲研究院创新日2013活动在北京举办.21项前沿创新技术和应用在创新日2013活动中进行展示.今年正值微软亚洲研究院建院15周年,微软全球资 "基于Kinect的手语翻译系统"展示 近日,"微软亚洲研究院创新日2013"活动在北京举办.21项前沿创新技术和应用在"创新日2013"活动中进行展示.今年正值微软亚洲研究院建院15周年,微软全球资深副总裁兼微软研究院院长Peter Lee博士.微软

微软亚洲研究院创新日活动在北京举办

"基于Kinect的手语翻译系统"展示 近日,"微软亚洲研究院创新日2013"活动在北京举办.21项前沿创新技术和应用在"创新日2013"活动中进行展示.今年正值微软亚洲研究院建院15周年,微软全球资深副总裁兼微软研究院院长Peter Lee博士.微软全球资深副总裁周以真博士.微软亚洲研究院院长洪小文博士和与会者共同回顾了研究院在过去十五年的筑梦历程,并探讨了未来计算技术的发展方向和创新路径. "创新日2013"活动中所展示的

“微软亚洲研究院创新日2013”展示前瞻技术

摘要: 基于Kinect的手语翻译系统展示 近日,微软亚洲研究院创新日2013活动在北京举办.21项前沿创新技术和应用在创新日2013活动中进行展示.今年正值微软亚洲研究院建院15周年,微软全球资 "基于Kinect的手语翻译系统"展示 近日,"微软亚洲研究院创新日2013"活动在北京举办.21项前沿创新技术和应用在"创新日2013"活动中进行展示.今年正值微软亚洲研究院建院15周年,微软全球资深副总裁兼微软研究院院长Peter Lee博士.微软

我在微软亚洲研究院生活中所接触的语言

自上次<回首往事:十八年的语言分支>一文后,全民编程计划也算是正式启动开来,其实前几次的文章(详见底部的推荐文章)确实为我们分享出了很多的道理.从中我们看到了语言的"叛逆思想".从中我们对一些语言有了更深入的认知.从中我们也能体会到身为程序员的各种生活. 肖伯纳有句名言是这么说的'人生不是一支短短的蜡烛,而是一支暂时由我们拿着的火炬.我们一定要把它燃得十分光明灿烂,然后交给下一代的人们'.我们在之前的文章提到过,每个人的经历本身就一个"瑰宝",把这些经历

微软亚洲研究院推出了一个新功能——微软猜字谜

摘要: 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因为没人出字谜,一是因为没有人帮忙解字谜. 最近,微软亚洲研究院在已有的微软对联平台上推出了一个新功能--微软猜字谜.当用户输入谜面后,系统自动分析,迅速给出谜底.更有

微软亚洲研究院在已有的微软对联平台上推出了一个新功能——微软猜字谜

摘要: 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因 小时候,每年元宵节,长辈们都会兴致勃勃地把一群小孩子叫到跟前,出一些字谜让大家猜,而后饶有兴致地分享各类字谜的解法.现在,我们很难有机会体验猜字谜的乐趣了,一是因为没人出字谜,一是因为没有人帮忙解字谜. 最近,微软亚洲研究院在已有的微软对联平台上推出了一个新功能--微软猜字谜.当用户输入谜面后,系统自动分析,迅速给出谜底.更有