深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱。——新智元创始人杨静
6月9日,爱奇艺世界·大会第二天,聚焦探讨AI与娱乐深度融合、相互激发的智能视频高峰论坛盛大开幕,爱奇艺CTO汤兴博士、杜比实验室全球高级副总裁John Couling、北京电影学院未来影像高精尖创新中心首席科学家、山东大学计算机学院院长陈宝权博士、英特尔中国研究院院长宋继强博士、中影国际文化传媒公司董事长、CEO唐季礼、新智元创始人杨静等业界专家、企业家共聚一堂,探讨AI娱乐时代到来所面临的机遇与挑战。
会上,汤兴博士分享了爱奇艺的技术战略及布局,并正式公布设立创新实验室,将通过国际合作制定视频行业的AI标准,引领AI娱乐时代的视频行业变革。
汤兴:爱奇艺大脑的新动作
爱奇艺爱奇艺CTO汤兴博士首先发表演讲,结合爱奇艺的创新实践,详细阐释了AI对于视频网站的价值。“海量的内容、用户、以及强大的云计算能力促进了快速迭代到AI娱乐时代的进程。
汤兴在演讲中特别提到了“爱奇艺大脑”和最新发布的“创新实验室”,这两个机构可以看成是爱奇艺AI技术的核心支撑。 在接受新智元的专访时,汤兴介绍了“爱奇艺大脑”和“创新实验室”对爱奇艺的作用,以及其组织形式。
汤兴说:“一方面说爱奇艺大脑在爱奇艺内部,内容方向,会帮助创作,帮助宣发,尤其是帮助内容的购买。我们一方面解决我们的运营效能,一方面是解决我们整个业务的决策,还有一方面是解决用户的喜好,去服务用户。其实这方面我们在推动各个业务线的发展,我们在内部针对每个业务线也有专门的大脑产生的,我们叫BI系统,这些系统会给这个业务相应的运营部门所有他所需要的数据,包括建议,以及预测,因为传统的数据分析只是给他报表,给他分析结果,但是并不会帮他来预测怎么样做是对的。我们在内部做了大量的预测工作,这样怎么样帮助我们理解什么样的内容在爱奇艺会受欢迎,因为各个平台有它的属性,在爱奇艺受欢迎的在别的地方未必受欢迎。什么样的题材爱奇艺的用户更喜欢?以及什么样的内容形式爱奇艺的用户会更喜闻乐见,其实所有的内容创作,包括购买,包括我们的合作,都和我们的用户属性和平台属性是直接相关的,而这些都是靠爱奇艺大脑在内部做业务相关方面的验证和推动。”
根据汤兴对新智元的介绍,创新实验室成立的初衷,是希望团队之间实现紧密的配合。也就是把原来分散在各部门的技术研发团队整合起来,形成一个统一的团队,都在创新实验室下进行研发。
汤兴在演讲中还提到,爱奇艺其实在这次的世界大会重新更新了企业愿景,“要做一家以科技创新为驱动的伟大的娱乐公司”。
根据汤兴的介绍,上个月的数据显示,每天移动端的DAU,在整个中国的移动互联网领域我们是第一名。整个月度的DAU,在整个视频行业排名第一;整个时长在中国互联网排名第二,仅次于微信。同时,其实可能大家还有一个不知道的,经过两年的默默耕耘,爱奇艺上的泡泡社区也变成最大的娱乐的粉丝社区,目前DAU已经达到6000万。
他从内容、用户、运营效率方面阐述爱奇艺在智能行业的工作。
在内容方面,基本的AI技术包括文本分析、人脸识别、属性识别、情绪识别、行为识别等等。基于这些,爱奇艺得以推出一些比较智能化的应用。比如:自动剪辑。
内容以为,爱奇艺对AI的应用第二个着力点是用户。随着AI对内容的理解,进一步可以对视频进行一个描述,这是后期个性化视频推荐最坚实的基础。
汤兴说:“爱奇艺现在已经有一个成熟的标签标注系统,通过把视频进行镜头的拆分,然后对镜头进行进一步的分类,通过各种属性的识别,从此生成一个标签的各种识别,然后进行测试,给每个标签打上置信度,以此对后期的所有工作打下坚实的基础。 ”
对视频内容的分析上, 汤兴现场发布了爱奇艺指数2.0版本,还着重介绍了爱奇艺全球领先的“以图搜剧”功能,以及自创的智能标签和看点功能。
爱奇艺指数2.0版本是爱奇艺面向公众的视频大数据分析平台,从播放趋势、视频看点、舆情分析、受众画像等方面提供了全方位的视频分析视角,直观有趣的数据可视化形式,集中展示了爱奇艺前沿领先的大数据创新技术成果。爱奇艺指数2.0基于深度学习技术,能够自动识别并分类目标视频图片的场景类型,统计出视频中美食、居家、职场等9类场景的出现频度和视频片段,让用户直观地了解剧集发生的主要场景,判别剧集的类型与风格。
在用户端,通过分析用户行为数据,爱奇艺得以全面了解用户,更好地进行舆情分析、个性化推荐,以及受众洞察。不仅如此,利用AI技术,汤兴连接内容和用户,提出了“AI艺术家”的概念,开发了“智能剪辑”功能,能让系统找到长视频中具有价值的剧情点。还开发了神奇的”三维换脸“功能,通过人脸建模让任何人都能成为”演员“。
对于爱奇艺来说,AI带来的商业智能也不容小觑,特别是在内容的购买上。利用深度学习等技术,爱奇艺开发了一套具备票房、流量、收入等预测能力的商业智能系统,辅助影视投资和版权采买行为,极大的保证了投资回报率。
最后,汤兴宣布的了爱奇艺创新实验室的成立。“AI最终一定要通过行业落地,爱奇艺希望我们在AI方面的工作能够沉浸在整个在娱乐方面的工作过程中,借此我们也成立了爱奇艺创新实验室,把整个爱奇艺的音频、视频、商业智能、文本的研发团队合为一体,同时通过和业界各方面的合作,我们希望这个创新实验室能够变成整个娱乐AI方面工作的一个推动力,能够推动整个娱乐行业向AI娱乐发展”,汤兴说,“我们通过AI让机器有了理解人的能力,让机器有了温度。同时,我们也通过AI让爱奇艺更加的了解我们的用户,让爱奇艺更加了解用户的情感,让爱奇艺更加有温度。”
陈宝权、王茜莺:AI 内容创造上理工男 VS 理工女如何看待?
陈宝权博士、王茜莺博士在产学界有着极大的影响力,二人分别从先进技术如何应用于影视制作,以及互联网技术的演进为话题,发表了精彩演讲。
陈宝权博士开场说到:“今天非常高兴代表理工男来到这样一个活动”,而后王茜莺开场说到:“我要用30个方程式捍卫理工女的荣耀。”十分有趣。
陈宝权博士提到,影视人工智能的技术必须是无可挑剔的,在影视工业十分发达的今天,影视科技的未来应该是在中国。
王茜莺博士的演讲题目是“PC三次方的ABCD”,主要介绍算法、行业、计算力、数据的结合,能够帮助我们在影像制作、视频场景分析以及未来其他一些行业医疗影像的处理方面做到更好,给用户提供更加个性化的服务。
在接受新智元的专访时,陈宝权博士对智能视频的概念作了澄清,他认为视频的智能应该分为两个阶段——前期和后期。他更关注的是制作期的AI技术,但是制作期的AI到后期的AI这两者之间是合作关系,就比如说制作的时候运用了很多的AI,这个东西就会融入到视频本身,这样的话,它在后面的所谓的智能化的呈现,它的一种理解就会变得更加准确,。
王茜莺博士在接受新智元专访表示,人的感情很多时候不仅是说你要识别他是在生气还是识别他是在高兴,或者紧张。更多的,在视频里面,包括一些信息媒体的制作,是你怎么来引导一个人的情绪,引导人的感情,这方面其实我觉得我们现在做的研究还没有到这个程度,比如说整个场景的设置跟前后故事的衔接,怎么能够引导出来什么样的情绪,我的BGM到底跟这个画面如何配合,其实这是一些非常非常大的难题。
AI+智能视频的机遇 :汤兴、陈宝权、宋继强、唐季礼、杨静同台探讨
此次大会的圆桌会议环节以“AI+智能视频的机遇”为话题,新智元创始人杨静作为本场圆桌会议的主持人,她表示,深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱。爱奇艺首席技术官汤兴、北京电影学院未来影像高精尖创新中心首席科学家、山东大学计算机学院院长陈宝权、英特尔中国研究院院长宋继强、中影国际文化传媒有限公司董事长、CEO唐季礼四人在主持人的引导下展开讨论。
以下是圆桌讨论内容实录:
杨静:第一个问题是智能视频在2017年会有什么样的一个爆发点。另外在全球影视剧行业会带来什么颠覆性的变革。唐导演能不能给我们举几个精彩的案例。
唐季礼:我1991年拍成龙的《超级警察》的时候,都是真跳真打真摔,所以成龙是真的要跳楼的。如果现在全部智能就好做了。我拍《神话》的时候要想象天空飞行去做特效,可是那个时候技术不是很好,拍的得假假的。我刚刚拍完《工夫瑜伽》,其实就是利用了现在的高科技帮助我们扩展导演创作的想象空间,可以无限的加强。所以,科技给我们带来很多新技术,包括未来智能的、VR的技术。现在有3D、4D这种技术出来,慢慢对影视技术是一个很大的挑战,挑战是讲故事同时要懂技术,怎么样利用现在的技术能够帮我们讲更好的故事,而且现在可能很多人希望有更强的互动感。所以,我也看到前面讲的智能视频,其实是一个机遇,更大的是一个挑战。挑战我们现在的导演。因为成熟的导演有时候转化技术不一定这么容易,年轻的导演可能技术好,可是他在讲故事,在讲人物上就不那么好。将来走到智能视频,还是内容为王,展示出来的是什么人物,什么故事,怎么让他们参与到里面?所以我觉得未来还是一个蛮大的挑战,我很幸运从影38年我看到从胶卷一直到数码,到高清,到3D,到现在视频我都经历,都有参与。所以,刚刚听完大家说,我下一步戏又想到一些新的挑战,在做场景,在想动作场面,怎么样可以在设置的过程中利用这些技术,让我跟观众走的紧密一点,更能够走在一起。
杨静:等于说您在下一步电影里面就会使用更多的AI技术了?
唐季礼:是的。
杨静:非常感谢唐季礼导演给我们的分享。下面该轮到宋继强院长了,宋继强院长对机器学习,强化学习很了解,英特尔最近也出了AI的芯片,你能不能给我们点评一下,现在到底什么是智能在视频当中的应用呢,这个定义不是很清晰,AR、VR很多概念在炒作,刚才我们听了,ABC都有好几种定义了。你能给我们详细的介绍一下,到底深度学习也好,强化学习也好,在智能视频上的发展,技术上的突破,到底在这几年有什么样的一个新的进展呢?
宋继强:这个问题很大,你一下问了很多个,我试图把它讲清楚,不占用太多时间。其实,从刚才技术能带来的创新体验上来讲,我觉得陈院长的一些技术展示和视频非常说明问题,技术细节不用细讲了,因为刚才王茜莺院长也是讲了很多它的历程,讲讲它有什么带来的新的体验。
我一直觉得,目前来讲计算带来的能力,视觉的技术,包括学习的技术带来很多完全不一样的体验。现在可以用VR的方式远程传输赛事,我戴着一个VR头盔,假如我还用全景的方式远程传过来,那个赛事是360度的全景,但我实际上看的只是其中的一小部分。而我希望有实时的交互感,我头这么一甩,我立刻就看到那么一个场景。但是,现在的传输技术,还有屏幕的分辨率其实都还没有达标,也就是我们没有办法一下把全部整个环绕全景,比如可能要是十几K的影像传给你,并且保证你随时转头,随时有,这是目前最大的一个体验上的障碍。
但是,比如我们用深度学习的技术,或者用最新的对抗网络技术,其实我们就可以用一些,比如在边缘计算,也就是我在靠近你的接入网的地方,比如就是你的基站的地方,我设置服务器,在那个服务器的时候,我实际上远程传过来的是你当前看的区域是高分辨率的,但是你不看的区域的外围是低分辨率的,稍微转头的时候,立刻利用边缘的计算,就是离你很近的计算,做一个高分辨率,超分辨率的计算,而这个超分辨率不是靠用来的差值,用对抗网络生成的这种,观看效果就会很及时。等你稳定下来以后,那边远处的高清的中心场景也就过来了,这是一种。
另外一个好玩的地方什么?刚才陈院长展示了一下,我实际上可以去通过计算机程序生成一个角色,而且这个角色的三维模型是可以被程序驱动去动的,也就是未来我们玩的视频游戏里边,你看到的那个角色它可能不是真人。
杨静:那就不用演员了。
宋继强:对,你可以这么想象。现在做强化学习,实际上很多时候在学怎么去交互,怎么去打游戏,所以在一个三维现实的游戏里面,你作为一个角色参与进去,别人看到你是一个化身,里边AI的角色看到你也是一个化身,到底你在打游戏,还是AI在打你,这时候就不好说了。其实这就带来一个很好玩的,就是完全特殊自己定义的一个玩法,而且AI是随机产生一些动作给你,完全是一个全新的体验。包括比如在家观看NBA篮球赛也有新的体验。英特尔有一个三维回放技术,一圈装了38个高清摄像头,每个摄像头至少是5K分辨率的摄像头。它做的以后就可以达到什么?在你转播的时候可以实时给你提供三维的回放,就是平时我们看到的转播只是根据主持,或者导播切哪个镜头就是哪个镜头,现在实际上可以选择到底是在哪个角度自主的去观看,因为它已经把这个场景重建出来了,而且可以给你看一个比如扣篮镜头的360度的回放,这是一个非常不可思议的想象了,就是原来在真实场景中不会有这种体验,只有靠技术给你这个体验。
杨静:这会成为一个爆发点吗?以后的赛事直播会采用三维的回放技术?
宋继强:我觉得会,已经把人的体验的要求带上去了。
杨静:就是我可以自选我的角度。
宋继强:是的。
杨静:非常感谢。下面请陈院长,刚才给我们展示了很多酷炫的技术,他在计算机图形这方面非常权威的专家,我第一次听他说《速度与激情》的主角完全重建的场面。其实人工智能技术在电影当中已经有非常酷炫的应用。有请陈宝权院长给我们介绍AI与电影黑科技这方面还有什么样的一些技术前瞻,以及世界电影AI技术演进的趋势。
陈宝权:我刚刚报告里面讲了一些例子,但是你要说《速度与激情》就是那个演员演到最后差不多结束的时候就出事了,就去世了,然后他正好有个弟弟,然后加上一定数字化的制作把它给续下来了。从我们的角度,还谈不上太多的智能,这是一个数字化的再现。
那么,说到智能化这个东西,真的就是能表演,有内涵,不只是一个躯壳。这个其实我刚才展示的例子已经说过了不少,从我们现在研究的角度,我们身处其中的人,我们感觉AI技术,特别是影视制作,CG代表最前沿的科技,这样一个发展我们自己都是非常惊叹,我展示的技术有我的东西,很多是我同仁们的东西,大概一半,真的是日新月异,我们都是目不暇接的。说预测未来,其实我们都不能预测未来,但是我们参与到未来实现的过程中间去,这大概是我们一个比较明确的定位。从SIGGRAPH的发展来说,有SIGGRAPH在亚洲的一个版本,2014年是第一次到中国,在那次会议上杨静你也参与了,我们召集了一个300多人,汤总也去了,从企业到产业界,到学术界,到政府都去参与了,也就是说,在未来,在影视市场越来越转向中国,说白了还不是亚洲,这样一个前提之下,这样一个科技和产业和艺术这样一个盛会未来也会越来越把重心移到中国,这大概是一个大家不容忽视的发展的方向。至于其他的我就说,最好的方式参与到它的实现中间去。
杨静:您预测SIGGRAPH什么时候能有中国的主席?
陈宝权:这个不太好预测,因为这个样本很小,大数据,人工智能有大样本,这是一个小样本,不太好预测。但是一个不需要预测的东西,就是甭管谁当主席,在整个SIGGRAPH华人是半壁江山了。所以各位做产业的,中国的产业这么发达,有大量的华人工作者在全球各地,这都是我们宝贵的资源,我建议各位眼睛多盯着点他们,把他们吸引到国内参与到我们国家自己的发展中。
杨静:非常感谢,我们也期待什么时候SIGGRAPH的全会,以及整个主席都是中国人来办的,也是中国人来管理,总有那么一天的。谢谢陈院长。汤兴博士几年前跟我们分享过爱奇艺大脑在人工智能方面的一些进展。因为当时其实是2014年,那个时候百度刚刚推出自己的大脑,爱奇艺紧跟着就出来了爱奇艺大脑。我们发现今天2017年爱奇艺大脑,就是人工智能在视频当中的应用已经有了突飞猛进的改变,就像AlphaGo一样。所以,请汤兴博士给我们分析一下爱奇艺大脑能怎么样推动智能视频这个行业。2017年以及未来三年它都有怎么样的一些爆发点。另外,我也看到你们的一些VR眼镜,您的VR眼镜,智能硬件什么时候能上市?
汤兴:我们其实从2013年开始已经在这方面做了大量的投入,一个起始原因是2012年我们开始建立云平台,因为没有云平台没法处理数据,即使有算法,有人工,没法产生智能。其实AI不是一个一个新的概念,很早已经存在,包括很多算法也演进了很多年。其实整个爱奇艺对AI这方面的投入可以用两方面来阐述,一分析我们觉得AI是一个很技术的东西,对技术人员来说,就是0和1的区别,其实从人性的角度,0和1就是男性和女性,我可以说前面几年我们是从工程的角度利用AI智能化,让平台运作的更有效率,让很多运营成本更快节省,怎么样调动视频播放,现在是怎么让AI真正了解人。其实反过来,从人文的角度来说,非常像我们去哺育一个婴儿,刚开始要教他理解你的语言,然后教他理解你所看到的东西,然后他要去了解你的情感,我们现在希望这个平台真正去了解用户的情感,以及一个内容真正要表达的价值观和它的情感,以及把它推向符合这个价值观体系的内容创作所面对的人群。我们希望未来爱奇艺也是能够更加的真正是有温情的,是善良的,理解内容又理解用户,能把内容和用户串在一起。
我们知道随着整个互联网视频的发展,其实用户也在发展,尤其是90后。从另外一个角度看AI,我们会分析用户整个的路径。首先,从用户消费内容的路径,第一要查找,这也是为什么我们原来做大量的工作都是为了做搜索,为了做推荐,为了做个性化。接着它要播放,我们做了大量的工作去怎么样智能的调度,让用户永远可以流畅的播放,可以更清晰的播放,以及运用了大量的合作的技术,像和杜比的合作,让用户还原它的真实的影效,这些都是为了增加观影体验。到再往后发展,尤其是90后有更多的表达自己情感的意愿,这时候我们向舆情检测来偏移,这样我们给用户提供一个平台,让他表达自己的观点。其实大家不知道,在爱奇艺平台打开弹幕的,这个代表你的年轻程度。他为什么要开弹幕,其实是一种吐槽,这也是为什么我们后来在做社区,做泡泡,因为让用户去表达他的观点。因为下一代会越来越善于表达自己的情感。不能还是像原来降低运营成本,提高变现,未来要了解用户,了解内容,让爱奇艺真的变成一个有温度,有感情的平台,这个我认为是下面AI一个大的挑战。
从这里诞生的是另外一个领域,像唐季礼导演说的,技术怎么帮助内容创作者创作更多好的视频。一方面是新创作,一方面是利用已有的内容做创作。因为我们知道历史以来累积了大量的媒体资源,以前都是放到媒资库再也无人问津,想做检索非常困难,现在AI技术通过场景、镜头,让用户利用以前的内容重新生成新的视频,这个是为了满足现在大家更愿意做短视频,碎片化消费主要的一个先决条件。随着互联网的发展,现在大家消耗内容变得越来越碎片化,因为4G网络的发展用户也会在4G网络下观看短视频,怎么样通过这种方式,让他消耗到他以前没有时间看的一个视频,可能5分钟让他看完一部电影,这些都是为了怎么样更智能化的满足他的内容的分发和享受的需要。我想这个是在AI方面爱奇艺大概的一个布局的方式。
回过来说VR,其实今天在每个人的纪念品里有一个我们叫小阅悦,实际上是一个VR的手机架,可以把手机放在里面看VR的电影。爱奇艺对VR的投入也是非常重的。
杨静:投入多少呢?
汤兴:我们的研发人员都很多。我们有一个4K的东西在另外一个论坛,是全球第一个4K显示精度的VR的东西。在VR方面,第一个是高清,第二个要解决人类的眩晕问题,因为毕竟他会直接造成你心里的不适。另一方面,因为他对视频的清晰度包括对其他信息要求更多,它的传输,压缩,怎么样用尽量少的带宽真正给用户传输他需要看的情节,这是音视频整个研发小组需要解决的问题。同样,4K从摄影,到后期的编辑,到后面的编解码,到分发,和原来传统的体系都不一样了。4K的一个电影上,加上字幕和以前屏幕上加有很大的困难度,因为它是有深度信息的。所以说,另外其实对它最重要的是内容的驱动。我们一致认为VR是游戏先行,我们会对头部的游戏,头部的内容做重大的投入,我们也在建立整个的平台。总结来说,爱奇艺从终端到平台,到内容领域都在做全面投入,我们也希望带动整个行业在VR方面的技术和发展。
杨静:现在VR能提供什么帮助呢?
宋继强:现在叫提取情感,不管从自然语言,还是肢体里面理解动作,如果有一个虚拟化身在AI的游戏里边玩,我希望那些AI驱动的角色也能有相应的情感的反馈,这样真的叫有温度了。其实我个人来讲是非常希望爱奇艺能够做到这样一个场景,我非常喜欢《阿凡达》这个电影,那是一个划时代的。但是,我们知道那个场景是花巨资拍出来的。假如以那个场景作为一个蓝本,是否以后可以身临其境的去做一个角色在里边去拍,我选择我喜欢的其他人作为一些角色,还能个性化在里边玩,就是我可以改变那个场景,这个能做到吗?有温度的。
汤兴:其实有一部分我们已经在做了,我们根据自己的喜好选择不同的结尾。再往前发展,尤其是VR电影的发展,这个是有可能做到的,你根据自己的喜好决定你看什么样的剧情,因为有些人喜欢看悲剧,有些人喜欢看喜剧,可以根据你自己的喜好给你推荐。
杨静:陈院长您有什么建议,怎么样让AI更有温度呢?在爱奇艺的世界里面。
陈宝权:我们未来都进入到爱奇艺的世界了是吧?说到温度这个事,我其实想刚才接着唐导他的说法,其实他说的时候我似乎稍微有点后悔了,就是他说现在的技术让明星不用再打了,不用再跌了,如果帅哥和美女要接吻,也没这个机会了,所以在这个事情上有点后悔(笑)。这个技术也许发展太快了。但是,我想大概不会。因为明星接吻是他们的事,你和你的女朋友接吻是你的事,如果说这样的技术的发展让它很个性化,就像我们前面展示一些,比如它这里是男主角,可能女主角变成你和你的女朋友,温度就来了。我认为技术的发展趋势永远是:所谓再高大上的技术的一个重要特征就是平民化,就是个性化,一个真正是高大上的技术就是让平民百姓都能够享受,这才是高大上的,否则它不是高大上的技术。所以,基于这个,像以前皇帝没有手机,我们现在有手机了,所有这些手机走到了个人以后,它就变成了真正普及的技术,这个技术往往是发生到一定高度以后才有,我觉得影视技术,所有的娱乐体验是一回事,个性化、体验化,我觉得这两种,你自己能够参与其中,能够体验,这才是技术发展的极致。我觉得这个温度就出来了。
杨静:是,我感觉到AI的智能视频的世界真的是一个爱奇艺的世界。有请三位嘉宾一人一句话来总结,或者来展望未来这个美好的爱奇艺的AI的智能视频的世界是什么样的。
宋继强:我觉得像人工智能技术加上先进的影视制作技术,未来将无所不能,体验千奇百怪。
陈宝权:奇艺爱,在奇和艺中间最后讲述的还是爱。
汤兴:我觉得一句话,爱奇艺,爱娱乐,爱奇艺,爱你所爱,爱你所想。
杨静:非常感谢。爱奇艺,爱你所想!感谢三位嘉宾给我们带来的精彩分享。
一张图看懂爱奇艺智能视频高峰论坛
文章转自新智元公众号,原文链接