演讲实录丨华刚 计算机视觉的黄金时代:机遇与挑战

计算机视觉的黄金时代:机遇与挑战

华刚

微软亚洲研究院视觉计算组组长、资深计算机视觉专家

华刚:大家下午好!今天报告题目是计算视觉的黄金时代,机遇与挑战。如果我们看到这个题目,关键字有几个,第一个是计算机视觉,第二个黄金时代,第三个第四个机遇挑战。

    基于这四个关键字给大家讲讲我的理解和看法。什么是计算机视觉?学术的观点定义领域的话,计算机视觉我们从图象和视频中间提取数值和符号计算机系统。我们说一个愿景能让计算机像人类一样看到并理解图象,我们认为是一个黄金时代回顾一下计算机视觉真正发展的历史。基本上来讲计算机视觉历史第一个萌芽阶段,1955年到1979年的时间,这个领域还是相对比较新的领域。在55年我们对于计算机视觉提出一个展望,在MIT一个暑期人工智能会议上。我们在三四个月内能不能把计算机视觉工作解决了,直到今天还没有完全解决。中间经历了很多发展,在70年代麻省理工真正成立研究小组,开设第一门计算机视觉课程。

    从今天来讲,我们看到会是非常简单一个图片,是一些像块状的物体,这是MIT第一篇博士论文。称之为萌芽阶段,大家处于一种探索状态,这个领域怎么走?早期期望说三个月把这个问题解决,甚至40年之后我们仍然没有把这个问题解决。计算机视觉真正发展一个非常坚持的基础,应该是从21世纪到80年代的时间,这中间发生很多时间,在80年代初光学支付(音译)识别系统,应用于商业应用邮局。美国邮局大家利用信件交流方式很多,包括公司各种商业应用,涉及到邮件分检的问题。

    这中间发生了几个里程碑事件,包括三维视觉的理论体系基本完备了。到90年代初人脸和语音识别,统计学识别方法已经引入到计算机视觉上了。计算机视觉真正爆发时间,我认为从21世纪10年代中,涉及到几个方面的因素。第一个我们进入互联网时代,对于图象数据积累,以及我们对硬件技术的发展,我们对摄像机前端这种硬件设备技术也是在日益增进,包括微软代表3D设想传感器带来的新的实际应用。

    如果要从这三个阶段中找一个比较代表性的节点,我认为在爆发阶段是深度学习模型,它为什么会对计算机视觉带来本质上的影响和变化。我们更广泛看计算机视觉应用的话,在这些年产生非常广泛的应用,包括三维图象的建模,包括监控,以及人机交互产生非常大的影响。为什么处在计算机视觉黄金时代?我认为是一个更多的工作,CVPR是我们计算机视觉的联会。当我自己还是一个博士生的时候,去参加CVPR,只有两家公司招聘,一家公司(桑娜福音译),一个是西门子。到2016年的时候,有一个网站上千条的工作信息,我们真正这个技术开始进入产业界。

    这个CVPR有更多人参与到这个年会,CVPR今年年会已经到3500人参加这个会议,5年前就是1000人左右。最重要我们有更多资金注入进来,现在博士毕业生很轻易拿到一个100万的年薪工作,今年CVPR将近100家公司占驻这个CVPR,我们看到越来越多的资金流向这个领域。我自己作为CVPR  主办成员之一,我们在会场设计上我们希望会达到5000人的规模。

    这里一个朋友,讲的一句话,在他36年的从事计算机视觉研究一个经历中间,从来没有看到我们这个领域像现在这么好过,他说我们在计算机视觉第一个黄金时代,以前没有过。他自己现在也在亚马逊作为一个保密状态工作,在帮亚马逊做一些事情。黄金时代我们实际上有一些什么样的机遇?为什么这个阶段产生爆发性的状态。

    前面两位老师提到一些,我们拥有了更多数据从各个方面来的。第二个方面,刚才山老师提到我们计算机视觉很多方法,可能在2、30年前被学习过,当时计算能力还不够。第三个就是深度学习模型,在微软研究院同事做的传感网络,已经做到1001层,在7、8年前不可想象。下面我就展示一下微软研究院在这个阶段我们一些小小的成果。

    我们微软认知服务,我们已经在上面发布了非常多的算法API,包括计算机视觉方面、语音方面、自然语言处理方面包括知识库方面,还有搜索库方面。人脸识别方面API,我们在两年以前人脸识别API已经有非常有成功的。Windows  hello。我们最近另外一个工作,怎么在图象和风格之间做转换,左边这个是所谓风格的图,右边是所谓内容图,我们这个应用算法一个目的,我怎么能够把右边这张图渲染成左边图的风格,实际上我们有一些最新基于深度学习一个方法,我们真正试图去理解怎么描述这种图象的风格。

    这里给看到更多的结果,当固定内容图的时候,我们可以把它渲染成不同的风格,用同一个网络。我们说计算机视觉黄金时代机遇在什么地方?我参加他80岁生日一个论坛,非常好的朋友也算他的学生,马里兰一个大学教授,他就讲一个观点,因为我们讲计算机视觉带来的影响?第一个观点,深度学习模型就像一个和面机一样,你把很多东西放进去它出来非常好吃的东西。它是一个非常好的东西,我们要利用好它。它是一个让众生变的平等的东西。我雇了两个高中生,编程能力很强,在计算机视觉方面很低,不管你有一年的经验,还是多年经验,让它飞固然是好的模型。因为涉及到很多观点,媒体朋友不要随便转载这些观点,让大家有一个体会。

    涉及到黄金时代机遇什么?实际上把这个技术门槛降低不少,现在很多人不需要经过10年的训练能去做一些计算机视觉应用,或者是技术。所以我认为这实际上是产业界一个机遇。产业界很少有人去愿意走40步的。实际上从产学研角度来讲,这个学界应该还是更多去开创一些新的研究领域,能够做一些更好的事情。

    黄金时代另外一个机遇就是创业、创业,我们很多老师已经创业了,像山老师,像朱珑一直学术方面走的比较多的意图,当我看到山老师公司的时候,是一个中英文混合体,山老师到底是看他还是看他,我不太明白。一个是人脸识别,一个是自动驾驶,人脸识别目前离实际应用最近一个,而且各个方面产生实际应用也是非常好的过程。我们遇到挑战什么?其实这么多年计算机视觉一直试图大家问自己一个问题,什么是计算机视觉杀手级应用?它是人脸识别吗?还是安防监控,还是辅助医疗图象诊断,我想大家没有回答,更多是摸索和探索。至于自动驾驶,我们还是保守推动这个行业,不要寒冬。我们还要小心谨慎一样,不要让杀手级应用真正变成杀手应用。

    另一方面,这个问题不仅在中国存在,其实在美国很多大学里面教授,做计算机视觉方面很多进了公司,或者自己出来创业。大家问一个问题,这些教授创业和进了产业界,谁来培养下一代的学生,这个问题值得思考。

    最后自己关于计算机视觉思考,这三个方面。第一个方面,为什么深度学习对计算机视觉好用?实际上大家如果在计算机视觉领域,计算机视觉本质是解不适定的问题。第二个深度学习本质上提供了用前馈的模型解反问题的框架。这是一个非常在高层面上一个理解的解释,本质上解这种不好的反问题的时候,我们有了反问题的框架。我自己对整体上的方法非常欣赏,但是自己还有一些领域的知识放在里面。

    第二个,计算机视觉发展到今天,40年前从人工智能科学研究共同体分离出来有一个原因,40年前人工智能,包括语音识别,包括计算机视觉技术没有成熟。2010年计算机视觉、自然语言处理,语音识别这些技术发展到一定程度,天下大势,分久必合,合久必分,大家思考一个问题,最终人工智能方面技术我们怎么能够集合到一起,为综合人工智能系统服务。

    最后讲,计算机视觉产学研一个互动。这个问题很简单,本质上认为所谓互动三个要素一个流通,研究人员、资金和技术,这个方面做的比较好,大家可以关注一下微软亚洲研究院博士生和学生培养的工作,我们计算科学的研究十几年历史,跟各个高校联合博士培养一个项目,这个学校的学生可以在我们研究院做五年的学习,拿到博士学位。包括给学校提供资金上的支持,在座有很多出来创业或者是产业界,还是想我们在人工智能产业上我们从中得到一些东西,还想到回馈给这个领域。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

时间: 2024-08-19 15:36:06

演讲实录丨华刚 计算机视觉的黄金时代:机遇与挑战的相关文章

演讲实录丨山世光 闲话AI时代的视觉智能

小编按 10月22日,来自国内外人工智能专家及行业领袖齐聚世界机器人大会,在其专题论坛2016中国智能机器人产业高峰论坛上展开一场别开生面的机器人和人工智能主题演讲,并带来精彩互动交流. 了解到还有很多粉丝不能到场参会,小编特地整理了参会嘉宾中科视拓董事长.计算机视觉专家山世光的报告速记,让大家一睹为快~ 本文根据速记进行整理 闲话AI时代的视觉智能 山世光 中科视拓董事长.计算机视觉专家 山世光:非常高兴今天有机会到这样一个论坛上来分享一下关于在人工智能时代的计算机视觉发展情况.今天我们这个论

演讲实录丨何军 增强现实的产业方向

增强现实的产业方向 何  军     亮风台销售总监     何军:各位专家.各位朋友,大家早上好,非常感谢大家在星期六的早上来参加虚拟现实和增强现实的论坛,我叫何军,来自于亮风台,我在亮风台负责销售.亮风台这个公司听起来名字不像一家IT公司,更像一家文化公司,亮风台其实来源于两位联合创始人,他们家乡一座山的名字,两位小伙伴在年少轻狂的时候,经常会去在这座山里面去玩,去畅想未来,其中也不乏有改变世界的一些梦想,所以在2012年廖博士回国的时候,给公司起名亮风台.     这么一批称为70后大叔创

演讲实录丨黄学东:语音识别和人工智能进展回顾

黄学东:大家好!我今天非常高兴来到北京,在强烈的灯光照射下我看不到大家,但是大家能看到我.在我开始之前,我想跟大家简单介绍一下,我们是怎样一个激动人心的时代,我们生活在这个时代多么幸运. 我们过去多少代人没有实现的梦想,这是一个非常激动人心的时代.在我开始之前,我想给大家看一下经济学人的封面故事.封面故事说,我们终于可以和人交流了,封面故事讲的非常深刻,它是从1954年,IBM从做机器翻译开始,描述了从50年代.60年代.70年代,一直到2016年,几个很重要的历史性的里程碑.这里可以看出来,在

演讲实录丨朱珑 开启人工智能之眼

开启人工智能之眼 朱珑 依图科技CEO.计算机视觉专家  朱珑:非常感谢张老师和白老师邀请,让我们这些青年人有机会在这里聚一聚.今天讲一下AI一些自己的理解,可能跟大部分人身份稍微有一些区别,我大概从事这方面学术上研究将近十多年时间,前面几年开始做创业,可以从两个行业纬度谈一谈之间相关性.     不知道我们在国内怎么谈创业?在美国有一个创业或者硅谷有一个创业基本定义,中国创业在美国是有两个词,极不确定性情况下追求高速增长.这两个词推出什么不是创业?比如说我们在国贸这里开一家咖啡厅,这不是创业,

演讲实录丨侯晓迪 机器视觉:从跑分到跑路

机器视觉:从跑分到跑路 侯晓迪 图森互联CTO.联合创始人 侯晓迪:大家好!今天非常高兴能跟各位在这分享我们公司图森互联,大概成立一年,我在这一年里面有很多想法,今天借此机会讲一讲.我们图森互联在北京有分布,我们在北京主要负责工程和技术,北美纯粹研究院,常年在北美,第一次回国做公开分享.标题是机器视觉.从跑分到跑路,跑分什么意思?因为现在很多公开数据集,很多大公司.小公司说你的算法很厉害,你在什么数据集上?你在分数线上跑了多少分,大概就是123.     我们前一段在有些朋友会了解到,我们拿到各

演讲实录丨季向阳 无人系统智能传感与计算

无人系统智能传感与计算 季向阳 清华大学教授 季向阳:我演讲的题目是无人系统智能传感与计算,应该说在智能里面除了我们提到很多算法之外,我们是从远端怎么把这个信息获取到,所以我们的题目是无人系统智能传感与计算.无人机系统里面,很多航空.水面等等一系列,核心涉及到我环境从简单到复杂,任务也是从简单到复杂.     我们从无人这样平台来说,你要实现自动,一个非常简单例子,大家肯定做过飞机,飞机首先找到自己位置,我们需要GPS.你要知道朝向位置,所谓姿态,就需要管道这方面的信息.真正在旱路里面飞机飞的非

演讲实录丨刘林坤 打造虚拟现实内容平台

打造虚拟现实内容平台 刘林坤   北京极维客科技有限公司 联合创始人 刘林坤:今天来的人水平比较高,我们属于比较小的公司,但是就我个人而言,是比较标准的连续创业者,比较喜欢刚才的小熊尼奥公司,它的技术不是最新的,但是应用做得很好.     VR硬件是一部分,内容如果娱乐端就是两部分,一个是游戏.一个是影视,大概就这三块东西,这是我分享的内容,我们这一块的人群其实可以发现,跟刚才熊总说的K12往下的人,我们覆盖的人是16岁往上的人,VR真正的用户应该是在95后,包括小朋友,比如说现在开始玩小熊尼奥

演讲实录丨朱频频 让Bots无处不在

让Bots无处不在 朱频频 上海智臻智能网络科技公司.小i机器人总裁兼首席技术官 朱频频:大家好!我也是蠢蠢的科大人.前几天召开世界人工智能大会,下午做了六场演讲,其中四个是科大校友,今天大概也有至少三个科大校友.     什么叫Bots?小i机器人在2004年就推出首个在MSN上的聊天机器人,在业内叫法就是Bots,其实是Robot非常亲密的称呼,很多时候指的是一款虚拟的机器人,可以生活在网络里面,具有机器人核心思考和交互的部分,但不一定有自己的实体.     今天是世界机器人大会,看到很多实

演讲实录丨沈晓卫 引领认知时代的创新

引领认知时代的创新 沈晓卫 IBM中国研究院院长.IBM大中华区首席技术官 沈晓卫:大家好,今天很高兴有这个机会跟大家分享IBM关于认知时代创新的一些看法.     无论我们每个人意识到还是没有意识到,今天我们已经走进到这个认知的时代,在这个背景下,我们看到很多行业,无论是医疗业.环境产业.金融业等等,都在深刻受到这个认知和认知技术的一些影响.     从IBM角度来看,在人工智能或在整个IT行业发展的历史长河中,过去几十年,从上个世纪40年代电子计算机的出现,尤其是上个世纪60年代IBM360