演讲实录丨黄学东:语音识别和人工智能进展回顾

黄学东:大家好!我今天非常高兴来到北京,在强烈的灯光照射下我看不到大家,但是大家能看到我。在我开始之前,我想跟大家简单介绍一下,我们是怎样一个激动人心的时代,我们生活在这个时代多么幸运。

我们过去多少代人没有实现的梦想,这是一个非常激动人心的时代。在我开始之前,我想给大家看一下经济学人的封面故事。封面故事说,我们终于可以和人交流了,封面故事讲的非常深刻,它是从1954年,IBM从做机器翻译开始,描述了从50年代、60年代、70年代,一直到2016年,几个很重要的历史性的里程碑。这里可以看出来,在贝尔实验室当时做了很多语音识别的实验,一直到美国军方在70年代末发动了大规模的语音和语言理解的研究,到苹果、谷歌和微软相继推出语音的智能助理,深度的机器翻译和去年年末,微软第一次在(英文)上历史性的达到了和人一样的媲美的语音转录系统,这是一个追求卓越,追求人工智能突破一个非常显著的成就。

人工智能从总体上来讲包括了感知和认知两大类。感知的突破是前所未有的,认知的突破还非常难以预测。深度学习在计算机视觉上的突破非常激动人心,我们发明了深度的RESNET,层数有150多层,PPT很难展示,首次超过了人在图形识别上的精确性,这是一个非常了不起的成就。在去年年末,我们再次获得了振奋人心的消息,语音识别系统达到了和人一样的高度,这是一个里程碑,我82年在清华大学做语音识别的研究,很难想象在30年中计算机的识别能超过人,因为语言是我们人特有的发明,我们和猴子最大的不同地方,我们可以用语言描述周围深刻的世界,可以描述我们看不见的东西。今天计算机第一次可以获得和人一样的精准的转录系统,这是非常了不起的人工智能里程碑。

在前两年,我和卡耐基梅隆大学(英文)教授和Dragon 创始人在ACM杂志合写了一篇语音识别过去40年的回顾,没想到这个回顾的东西已经过时了,由此可见语音识别、人工智能发展速度有多么快。这张图片大概总结了在过去几十年来,整个研究界在公开测试中做的努力,我们把平均发表(英文)的文章做了一个统计,大部分的系统都是在10%到15%左右,一些非常新颖的东西,错误率超过了20%,但是IBM在过去一直领导业界的潮流,他们在(英文)上取得了非常卓越的成就,在6%到5%之间。微软和其他很多同行一样,也在致力于开发语音助手,在Windows10我们和其他硬件厂商,像Harman Kardon提供语音音箱,深入我们的生活。

我们看另外一个话题,看他们造就了一个怎样的生态系统,看一下视频。我解释一下,我们采访了美国很多公司,他们是怎样开发自己的语音助理,一起为大家提供优秀的服务。人工智能的核心技术基本上经历了过去几十年的变化,现在最具有代表性的是深度学习。

深度学习基于好几个东西,第一个,我们需要有大的数据,所以智能语音能搜集非常多的数据,这是一个非常重要的东西。第二,不同的设备,像智能音箱,你的手机、PC和其他的智能设备,都会无缝结合起来,所以在这个互动情况下,人工智能可以发挥更大的作用。所以在人工智能这个过程中,我们需要大的计算,需要更强大的算法,需要更多的数据。在这三者的配合下,我们可以创新很多落地的服务,这就是今天我想重点介绍一下微软在人工智能落地服务有什么样的观点和看法。

神经网络是非常古老的技术,现在能焕发技术,最主要的原因是数据多了,计算大了,层次深了。在人工智能发展过程中,深度神经网络可以分为三类,第一类是传统的深度神经网络DNN,非常简单,把数据拿过来,通过加权不断迭代上去,可以模拟非常大的函数。第二是转积神经网络CNN,它可以去掉图像的位置变化,所以它对图像识别非常强大。第三类是RNN,可以模拟动态的时间训练,把过去的输出当为下一个时间的输入,这样可以描述动态的时间训练。这三个东西各有千秋,都不错,加上强大的数据,基本上可以解决我们现在在感知方面遇到的主要问题。当然,因为深度学习的原因,在过去人工智能研发过程中,基本上是要去寻找新数据的算法,现在因为神经网络这个工具的强大,数据的丰富,和开源工具大家应有尽有,基本上变成了调参数的过程,所以只要有足够的计算资源就可以调出非常强大的系统,当然你不知道为什么它能工作的很好。

另外一个神经网络像东北菜的乱炖,把什么东西都放进去,做一个大杂烩出来,只要有足够的数据,足够的计算,就可以做出相当不错的系统,比如在语音识别这个过程中,环境噪音是非常难处理的问题,现在可以把环境噪音和其他的语音特征一起训练,你也搞不清为什么它能工作,它工作的很好,这就是让我们做信号处理很恼火的事情。同样的,各种人的口音不一样,你讲普通话可以讲不同的口音,音调高度都不一样,没有关系,我们可以吧i-vector当成一个特征和其他传统的语音特征放进去,可以训练出一套语音对所有人都能适应的系统。所以深度学习神经网络有很多意想不到的优点,就是特征学习非常独特,以前的人工智能模式识别需要做很多特征抽取的工作,现在基本上做大杂烩,只要有计算资源,只要有数据,通过一炖乱炖做出的菜也相当鲜美。

最后我用三张PPT,基本上把所谓人工智能有怎么样的突破总结出来了,基本上就是深度学习,大数据,大计算,再加上三类神经网络模型,DNN, CNN, RNN可以乱炖,做出杂烩非常鲜美,但是杂烩的化学成分什么样子,大家也没有好好研究,这些是有待我们进一步发掘和理解、探索的问题。

我想,剩下的时间给大家做一个简单的介绍,回顾一下微软语音识别是怎么样达到和人一样媲美的水平。在Switchboard研发过程中,大家多在想人识别这样的系统,到底精准度有多高,微软在2016年把Switchboard的测试系统,通过我们正常的标注,有两套人马通过比较标注,得到的错误率5.9%。IBM今年挑战微软,说你们错误率太高,所以他们在澳洲重新搞了四套人马,重新标注微软做过的系统,他们说人的水平如果花更多的时间,听的遍数更多可以做到5.1%,其实我觉得5.1%和5.9%是大同小异,很多人都不同意到底是5.1%还是5.9%。我们在去年10月份首次达到5.8%的水平,我们觉得达到可以和人媲美的语音识别系统,至少是在Switchboard任务上。我们把三大神经网络系统完美整合起来,我们有10套神经网络系统在并行工作,通过最优组合创造了这个工程的奇迹。就像我刚刚讲的,深度学习基本上是东北乱炖,大杂烩,我们通过10套神经网络并行处理,得到了前所未有的历史性的里程碑,5.8%是我们去年报告的结果,这是一个了不起的奇迹。第一个是在Switchboard的语音识别的任务上,计算机达到了和人可以媲美的水平。在今年2017年在ICASSP会议上,我们把计算机语音识别和人标注结果,让参加大会的人做一个选择,我们发现50%的人选择计算机,50%的人选择了人的标注,再次证明通过2017年ICASSP参会者的评价,大家分辨不出是人还是机器学习的结果。

简单介绍一下我们过去几十年人工智能语音识别总的发展情况,基本上就是这样一个状况,通过深度学习,通过大数据,通过强大的计算,我们可以达到前所未有的感知,计算机视觉和计算机语音识别的突破,但是在认知,推理上还有漫长的道路要走。在这样的情况下,我们一直在考虑,我们能给大家提供什么样的服务,你们不需要几十年,几千人的深度人工智能积累,也可以开发出更加智能的应用。

我们在两年前开始了微软认知服务的研发工作,到今天已经有将近30个云计算打包的人工智能服务,大家可以使用,这都在Azure的云平台上,从计算机语音识别到语言理解,知识表达和搜索,还有最新的人工智能的服务,我们都打包到Azure云上去了,所以大家在开发这个简单的程序的时候,不要去关注里面是怎么做的,你可以调用这个API就可以创造出Cortana一样强大的智能服务。我想再强调,微软第一次做的非常精准的手势识别,可以通过事先标注的方法重新定义,因为手势识别,现在大部分人的做法,和70年代语音识别用的方法基本一样,一个手势用一个模板,70年代大家做语音识别的时候,就是一个字一个模板,出来一个新字大家不知道怎么办,要重新训练。今天的语音识别是通过音素系统,你只要这个字的发音,写下来就可以了,语音识别通过了从模板到音素的转变,只要定义你的位置和手势的移动,我们可以定义一个手势的字典,这是非常激动人心的工作。下一个风口在那里,一定是Ambient Computing,像语音助手,你放一个智能音箱在家里,你可以随喊随到,根本不需要接触这个装置,所以计算机真的看不见了。语音有它的局限性,因为它很难描述这个和那个到底是什么东西,语音加上手势,一定是领导下一个计算机浪潮的领头军。所以我非常激动,微软的认知服务不仅仅是提供了语音识别,还提供了Cortana最基本的智能,大家可以参与在新的认知平台上,可以开发最新最高级的智能应用程序。

下面讲几个案例,通过微软的认知服务到底能做什么。比如微软最新技术Switchboard达到人的水平,这是在某一个环境下做成的,今天技术很难做成完全通用的,不管什么样的任务都很难做得和人一样优秀。我给大家演示一下游戏开发公司,用微软的量身定制的语音识别系统能做到什么程度。开发游戏的过程中,他们可以做到完全精准的语音声控和语言理解。

下面给大家演示一下微软小冰语音合成能做到什么样的水平,语音合成也是因为深度学习的关系,最近取得了长足的进展,它的自然度大家可以看看这个表,微软小冰的语音合成自然度已经非常接近人类的水平,给大家简单放一下小冰语音合成现在是什么样的情况,希望大家能听到这个音频。这些是通过我们深度学习语音合成翻译成比较自然的语音。

第三个案例,我想给大家介绍一下微软语音翻译系统,也是因为深度学习能做成什么样的水平。PPT下面有一个(英文),因为这是我的语音模型,我下面会讲一些英文,可以看到字幕可以实时转录过来。如果大家不看我英文的转录,你可以安装微软的翻译软件。微软在上个星期召开的大会上,我们的CEO演讲,在公司每个楼里有一个大屏幕直播,屏幕下面都是用微软的AI做了实时转录,因为有的人看不懂英文,可以用他的PC上的实时翻译,我们可以同时支持60种语言,我给大家看一下这个视频。这个语音是微软的产品,大家如果想试用,可以在苹果手机,安卓手机上下载,如果你用PC,也可以在网站上下载,我们可以同时支持100个人用60种语音集体聊天,我给大家做一下实时的演示。如果我用我的电话讲中文、法文、日文、德文,可以在这个屏幕上实时翻译成英文。这是我要演示的另外一个案例,微软翻译系统,我们做过一个简单的评价,大家可以看出来,在以前是用统计做机器翻译,这个越高表示质量越好,从我们推出深度学习的机器翻译,质量有大幅度的提高,我们同时和谷歌的机器翻译做了比较,其实我们的水平是相当接近的,蓝色是代表微软的质量,越高越好,红色是代表谷歌的质量,这是我们用人评价中英翻译机器的质量。当然,机器翻译不像在Switchboard一样,可以达到人的水平,还需要有一些努力,我们希望提供更好的服务。

第四个案例给大家介绍智能客服,微软有非常多的产品线,我们的客服需求的工作是相当繁重的,对技术要求也相当深刻,可以说在全球500强里,我们对客服的要求非常高,微软用人工智能和深度学习的方法,最近推出了一个聊天的机器人,多伦多计划,这已经在美国上线了,所以如果你在美国的话,这时候已经有微软的语音智能客服为你解答问题,这是自然语言理解的系统,现在你不是和人聊天,你是和机器聊天,它像人工客服一样,一步一步可以帮你解决很多微软产品的问题,如果你不满意,这时候我们马上可以连入人工客服,为你解决你的问题,这是一个非常重要的人工智能解决实际问题的案例。

我讲了这些,微软的人工智能80%都是在我们的CNTK上面完成,这是我们最大的秘密武器,这已经是微软开源的深度学习系统。香港浸会大学在今年做过一个深刻的评测,这个表大家可能读不了,我跟大家简单介绍一下,香港浸会大学做了好几种不同神经网络的评测,最下面是DNN, CNN, and RNN/LSTM,可以看出来在GPU的情况下,不同的深度学习工具包,在不同的任务上的LSTM性能,CNTK用的是0.01,第二名是0.06,要慢6倍,所以如果大家对人工智能真的非常感兴趣,有大的数据处理,这个训练速度是一个最大的问题,微软内部一直在用CNTK主要原因,是微软为商用人工智能产品处理的数据相当大,以前我们的语音识别系统训练时间数据量非常大,需要一到两个月时间,这样造成了为什么CNTK在微软内部非常重要,所以我们一直关注怎么样把深度学习的训练速度提上去,我们非常高兴,微软已经开源了深度学习的工具包,大家可以到网站上下载和使用CNTK,我们完全分享我们的秘密武器,所以让人工智能服务于所有的人是我们最重要的宗旨之一。

今年,英美达在开了一个大会,他们的CEO自己做过一个评测,在这里面,这个绿色是越小越快,他们推出了最新的GPU,比以前的系统快很多倍,同时也评价了Caffe 2 和MxNET,这也是相当快的深度学习系统,可以看出来CNTK中间这个深度学习包,在最新的V系列上是前所未有的快,所以我们是非常自豪跟大家分享。

最后,我讲一下在中国的实际案例,这是一个医疗解决方案。在中国糖尿病性视网膜病变是很常见的并发症,全球有4亿多人有这样的问题,上海长征医院和Airdoc合作,用微软的CNTK开发了一个非常强大的计算机视觉识别系统Airdoc DR,检测糖尿病的正确率水平已经达到了中国普通医生的水平,所以这是一个非常了不起的,为中国老百姓提供实实在在的福利的人工智能案例,我想给大家看一下他们的视频。看到的是中国本土公司用微软的CNTK,怎么样解决实实在在的问题,为老百姓提供福利的非常好的案例。

总结一下,这是个非常激动人心的时代,就像刚刚我开始的时候视频介绍的一样,人类历史长河中,人类往前的进步是非常激动人心的,人工智能将带来的变革在今后10年将是以前2000不可媲美的。再次感谢大家,我们能有这样一个非常激动人心的机会,和大家一起推动人工智能往前发展,在感知和认知上取得更大突破,造福人类,谢谢大家。

本文来源于"中国人工智能学会",原文发表时间" 2017-05-21 "

时间: 2024-11-05 14:39:19

演讲实录丨黄学东:语音识别和人工智能进展回顾的相关文章

【AICC首届AI计算大会议程公布】王恩东、李德毅、黄学东等聚焦AI计算趋势

首届AI计算大会.中国工程院王恩东院士.李德毅院士.微软技术院士黄学东.集群超算架构创始人Thomas Sterling.浪潮副总裁胡雷钧.国家超算无锡中心主任杨广文.百度人工智能技术委员会主席朱勇.旷视科技首席科学家孙剑.深度学习框架评测专家褚晓文.Uber机器学习主任王鲁明等业界专家,将带来人工智能计算与应用的精彩前沿报告. AI 领域,从今年5月,谷歌正式发布TPU以来,专用芯片的研发和竞争日趋激烈,微软.百度等大公司纷纷推出以"X"PU命名的专用芯片.英特尔也抢注到了VPU.有

演讲实录丨王士进 人工智能开启智慧教育新模式

人工智能开启智慧教育新模式    王士进 科大讯飞研究院副院长,智学网副总经理 王士进:各位嘉宾上午好!我是讯飞研究院的王士进.非常高兴能够根据汇的嘉宾一起分享讯飞在人工智能以及人工智能和智慧教育结合的一些一些看法,那么今天我的报告的话分为3个部分第一部分的话是简单介绍一下人工智能技术以及讯飞在他们做了一些工作.然后第二个部分和第三部分的话分别介绍人工智能在我们智慧教育中在考试以及教学这一场景一些应用. 讲到智能和人工智能,那么这里边的话关于这个定义其实很多,但是最基本的一个概念的话我们认为如果

演讲实录丨丨Young-Jo Cho 基于网络的机器智能机器人技术的发展

基于网络的机器智能机器人技术的发展 Young-Jo Cho 韩国科学技术研究委员会智能机器人收敛集群主任 Young-Jo Cho:大家好,我主要负责的是韩国通信电子研究院相关的机器人集体智慧方面的工作.我来自于韩国,主要在电信领域,也就是我们所说的通信和IT领域有很多经验,同时我也是韩国机器人学会副主席,在明年将会成为这个委员会主席,非常荣幸有机会和大家一起分享韩国的一些经验,并且促进两国合作.     我想给大家介绍一下我所做的一个五年期项目--机器人集体性智慧科技.我将会给大家介绍一下我

演讲实录丨胡郁 从“能听会说”到“能理解会思考”-以语音和语言为入口的认知革命

从"能听会说"到"能理解会思考" -以语音和语言为入口的认知革命 胡郁 中国人工智能学会企业副理事长.科大讯飞轮值总裁   胡郁:我主要分享三个方面内容:关于人工智能.关于讯飞的人工智能.机器人和人工智能之间的联系.     人工智能这个词非常热,今年是人工智能六十周年,让我们再次向这些人工智能的先驱致敬.十年前五十周年,这些耄耋老人都成为图灵奖创始人和诺贝尔奖获得者,但是在五十年前,他们都是像我们一样的年轻的研究学家,美国在这方面的前瞻性,在六十周年这个时候,当时

CAAI演讲实录|微软邓力:驱动大数据人工智能多种应用的三类深度学习模式

8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大.规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用.大会由CSDN网站进行专题直播,并由百度开放云提供独家视频直播技术支持. 在26日的主题报告环节,微软人工智能首席科学家.IEEE Fellow邓力博士做了<驱动大数据人工智能多种应用

干货分享丨杨学山:认识人工智能

2016年7月17日,以"大数据与人工智能"为主题的"第五届中国大数据应用论坛"在北京大学英杰交流中心成功举办.本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,北达软.数美时代和章鱼大数据协办,CIO时代网承办.来自业界的相关专家学者.CIO.媒体朋友等近200人参与了此次的大数据盛会.北京大学教授.原工业和信息化部副部长杨学山发表了题为<认识人工智能>的主题演讲.以下为演讲实录: 各位来宾.各位老师.各位朋友,大家上午好!十

演讲实录丨山世光 闲话AI时代的视觉智能

小编按 10月22日,来自国内外人工智能专家及行业领袖齐聚世界机器人大会,在其专题论坛2016中国智能机器人产业高峰论坛上展开一场别开生面的机器人和人工智能主题演讲,并带来精彩互动交流. 了解到还有很多粉丝不能到场参会,小编特地整理了参会嘉宾中科视拓董事长.计算机视觉专家山世光的报告速记,让大家一睹为快~ 本文根据速记进行整理 闲话AI时代的视觉智能 山世光 中科视拓董事长.计算机视觉专家 山世光:非常高兴今天有机会到这样一个论坛上来分享一下关于在人工智能时代的计算机视觉发展情况.今天我们这个论

演讲实录丨吕学强 当代教育的智能化趋势

当代教育的智能化趋势 吕学强  北京信息科技大学网络文化与数字传播北京市重点实验室副主任,中国语言智能研究中心特聘教授 吕学强:各位老师,各位同学大家上午好,我汇报的题目是当代教育的智能化趋势,这个报告本来应该由,首都师范大学的周建设副家长来.住他今天要进行一个非常重要的高级和验收工作,所以委托我来做这个报告.我们下面这个以中国语言智能研究中心,是9月18号,刚刚挂牌的是由国家语委设立的3个科研基地之一.周建设副校长他有资力和有能力来进行对教育的思考,那么在这里简单介绍,他的就是一些经历.他现在

演讲实录丨朱珑 开启人工智能之眼

开启人工智能之眼 朱珑 依图科技CEO.计算机视觉专家  朱珑:非常感谢张老师和白老师邀请,让我们这些青年人有机会在这里聚一聚.今天讲一下AI一些自己的理解,可能跟大部分人身份稍微有一些区别,我大概从事这方面学术上研究将近十多年时间,前面几年开始做创业,可以从两个行业纬度谈一谈之间相关性.     不知道我们在国内怎么谈创业?在美国有一个创业或者硅谷有一个创业基本定义,中国创业在美国是有两个词,极不确定性情况下追求高速增长.这两个词推出什么不是创业?比如说我们在国贸这里开一家咖啡厅,这不是创业,