演讲稿丨徐伟 人类离实现通用人工智能还缺少什么

       我在的部门在百度叫做深度学习实验室,这是2013年的时候在百度成立的专注于深度学习的实验室,应该是全世界在工业里面第一个专注于深度学习研究的实验室。我今天要和大家分享的首先是看一下最近几年来人工智能在图像语言方面的最新的进展,以及分享一下我对人工智能目前它缺少的东西,以及以后我们未来可以去继续工作的方向。

       人工智能这个概念最近几年非常火,我们看到人工智能传统的一些研究方向,像计算机视觉,还有语音识别,这些方面在最近几年都有了过去几十年不可想象的巨大进展。尤其是上个月Googel的AlphaGo和李世石下的那盘棋以后,更是激起了大家对人工智能高度的热情。为什么人工智能在最近几年有快速的发展呢?一个最重要的原因就是我们通过了几十年的积累,我们现在已经有了非常可观的计算能力,同时在这个计算能力的基础上,可以在一个可接受的时间内处理大数据。我们最近几年因为深度学习的发展,给我们提供了一个非常灵活的,非常具有建模能力的学习系统,正是因为这两者的结合,它能够把我们大数据后面蕴藏各种丰富复杂的关系,能够把它提取出来。从而成为我们人工智能快速前进的巨大推动力。

       因为看到深度学习的巨大潜力,百度也投入了非常多的力量来开发一个深度学习的训练和运算平台。这个平台叫做PADDLE。那它的目的就是为了把深度学习更好的应用到百度的各种产品里面去,让它更方便的,更好的提高我们的用户体验,提高智能度。我们这个深度学习的平台能支持各种丰富的数据类型,比如说像二维图像数据,或者是词的训练数据,尤其像工业界非常重要的上千亿的稀疏数据,也能非常有效的支持。

       另外也提供了非常灵活的建模表达能力,能非常方便地根据他应用的需求,配置出不同的深度学习的模型。比如说一个循环网络,或者是处理图像的卷积网络,任何灵活的组合都可以在我们这个平台上面很方便的配置出来。

       因为在百度我们有非常大量的运算资源,为了能够充分的应用我们的运算资源,我们这个平台也非常高效的进行多机的训练,这样也能很有效的处理我们的大量的数据。

因为有了这么一个非常高效,非常灵活的计算深度学习的平台。百度最近几年把深度学习运用到了产品的方方面面。比如说核心的搜索和广告这样的产品,还有可能不太想到的,像数据中心的智能控制,病毒的查杀,这种产品里面我们都成功的把深度学习应用到上面去,提高我们产品的体验。

       随着深度学习的逐步在各种人工智能问题里面的更深入的使用,我们现在开始看到机器在一些很特定的感知问题上,它的能力已经在逐渐接近甚至超过了人类的水平。比如语音识别,我们百度的语音搜索,在比较短的文字,和上下文没有太大关系的语音识别这种任务,我们百度的语音识别系统做到明显比人好的程度,错误率不到6%,而人的任务上的错误率可以是接近了10%。因为实际上在没有上下文关系的情况下,这是非常难的任务。

       还有另外一个例子就是人脸识别,也是随着深度学习的使用,人脸识别这个东西也是最近几年有了非常大的提升。人脸识别一个最核心的任务,就是给两幅图,你要判断是否来自同一个人,包括百度在内的很多公司还有研究团体,都取得了明显比人好的水平。能看到我们的机器错误率现在非常低,只有0.23%,而人的任务率是0.8%,现在已经不及机器了。

       还有像其他一些图像识别的任务,在最近几年也都有了非常快速的进步。比如说细粒度图像识别,在一类物体里面我们还要区分它子类,比如说在狗里面要区分各种不同的狗。这样的任务实际上是比更普通的物体识别更难,因为要对物体细致的特征有区分。这样一个任务上在2013年的时候,我们最好的系统错误率都还是50%,到了2015年错误率就降到20%,可到今年最新的结果错误率就降到10%几。像这种细粒度的物体是别人是很困难的,人是很难认识200多种狗的。

       下面我们谈一些语言方面用深度学习的进展。我们知道其实语言是人类智力的核心的体现。我们是用深度学习的思想来处理语义理解的任务。传统在语义理解的任务里面,基本上是要分好几步走的过程。首先要通过词法解析、语法解析,然后构造各种人为的特征,然后得出语义分析的结果。深度学习的理念就是端到端的,从最原始的数据开始的,这里就是一个词的序列开始的,我们不考虑任何的人为的特征构建,就直接用一个完整的模型,得出我们想要的结果。我们人对这个问题的理解,主要是体现在我们模型的结构当中。这样的思想,过去几年在图像识别、语音识别里面都给他们带来了巨大的提升。我们在语音理解这样的任务里面,也做到了比传统方法好的结果。

       另外一个非常好的,端到端的深度学习,在自然语言处理里面非常成功的应用,就是机器翻译。端到端的机器翻译的做法,是2014年的Google首次提出来了,因为是一个新方法,大家认为很有潜力的。但是刚提出来的时候还是比传统的方法有明显的差距。但仅仅过了一年以后,就能够达到了传统方法的质量。今年的结果已经比传统的方法好了。一旦我们用好了以后,就可以对它各种效果有非常快速的提升。

       除了语言其实最近和语言相关的比较热点的研究方向,就是把语言理解还有图像识别,语言生成这些传统的人工智能比较隔离的研究方向,有机的组合起来,用一个完整的深度学习模型来处理。通过这样的一个整体的模型,我们机器就可以比较更自然的学到语言和它感知到的物理世界的联系。

       像这样的统一的视觉语言统一的模型,我们有一些例子。第一个就是看图说话,给了图以后,说出一个非常自然的描述,“一辆火车沿着森林间的铁轨驶过”。也可以对图像的自然语言的提问,给出一个合适的答案。甚至也可以理解视频,看到一段视频以后也可以给对这个视频做出描述。这个工作我们在百度是属于比较早的开始,现在也有很多研究机构在做这样的视觉和语言统一的研究。

       深度学习最近还有一个事,就是现在向更深的模式发展。在去年图像识别比赛上面,我们看到获奖最好的一个模型是微软开发的深度达到150多层的深度模型。另外我们在翻译上也发现,随着模型深度的不断加深,翻译效果也是变得越来越好。

       深度学习最近还有另外一些研究的热点,就是所谓的推理、注意力、记忆,这方面是偏向于人类认知能力的,希望把这样的一些机制能放在深度学习能力模型里面来。特别是在这里面注意力这样的机制,在一些实际的应用里面也取得了非常好的效果,比如细粒度的图像识别,或者翻译的任务。像记忆的机制,现在还是比较初期的阶段。

       深度学习给AI带来了快速的进展,但我们还有很多的路要走。人工智能这个概念是1955年的时候John McCarthy提出的,同时还有3位重量级的研究人物。他们说了要用10个月花两个月时间,对人工智能做一个非常巨大的进步,实际上我们现在看到他这个是远远低估了人工智能的难度。现在的人工智能还有很多的缺陷,人类智能一个最核心的点就是自我学习和创造的能力,我们看到现在有很多具体的智能的系统,比如说AlphaGo,它还缺乏一种自我学习和创造的能力。比如说来了一个新的棋给他学,还需要大量的人参与工作,才可以改造。而人就不需要,人可以自己主动的学习各种新的任务。

       最重要的一点就是说现在人工智能还缺少一种从少量标注数据学习的能力,一个例子比如说图像识别,ImageNet里每个物体种类有几百幅图,一个小孩要认识一种东西可能几幅图足够了。还有英法翻译的训练数据,人可能需要几万个小时能阅读完,但如果你是说英语的,掌握法语的话可能只需要几百小时。所以看到现在的深度学习缺乏少量标注学习的能力。

       那么最核心的一点就是我们需要有对环境的一个非常好的表示,就是说我们需要通过非常大量的数据太能学习出来,非监督学习的机制,才能让我们有效的利用到大量的非标注的数据,进行非监督学习方式的一个最行之有效的方法,就是用它来预测未来。我们知道预测未来的能力是人智力的核心体现。比如说物理学是一个对简单系统的预测,人类的智力包括机器学习,是一个复杂系统的近似预测。如果我们通过这种预测未来的学习方式,就可以有效的掌握环境的规律,所以得到有效的表示。

       我们现在的人工智能系统缺乏常识,刚才李院士也讲了很多的自动车,我们在座的很多人开车可能开几百公里就非常好了。但大家知道我们现在最好的Google的自动驾驶车,现在已经开了超过了200多万公里,但既使是这样,现在还是不能够去驾车。最核心的问题是缺乏一种像人这样的常识,就是说它遇到很多路况对人是非常简单的,人看到就知道怎么做。但机器缺乏常识性的理解,就只能通过人一条一条把每种路况导入系统里去。要想解决这样的问题,我觉得有效的方式就是放到真实的环境里面学习,像这样的概念最近在Facebook和微软也提出了这样的想法,他们提出创造一个虚拟的模拟环境,让人工智能体在这个环境中自己去探索,然后就可以在这样和环境的交互中,就能比较有效的建立它常识一样的东西。

       还有另外一个主要的局限之处,就是通过数据来学习。我们现在所有的东西首先要考虑搜集数据。我们人来学习,比如说要区分这样两种不同的鸟,需要收集大量的数据,从数据里面自动总结出规律出来。实际上我们人会告诉他,可以看到这两个图的区别,人可以用非常精炼的语言告诉其他人。而现在的机器学习还非常缺少有效的能够利用人的知识的途径。

       我认为如果要解决这样的问题,我们需要把语言作为机器学习系统一个基础的能力,否则的话我们就很难做到能够把人类大量的知识传递到机器里面去,然后同时来说我们需要这个机器能够理解语言,这样我们才能够表达人类的需求,能够帮助他的理解。旁边这就是一个电影里面的人在教机器人来学习读书。

       我们要做真正像人这样的非常强大的人工智能,可能我们需要从最基础的东西开始做起。我们需要做的是像幼儿一样,让他自主在一个环境里面去学习感知,学习他的行动的一些基础的技能,同时把学习语言作为一个最核心的东西,包含在这样的一个系统里面。这些就是大概我的分享,我们还有非常多的困难,但是我觉得也给我们带来非常多的机会,我也希望有更多人和我们一起探索人工智能非常有意思的问题,去创造我们人工智能的未来,谢谢大家。

本文来源于"中国人工智能学会",原文发表时间"2016-04-28"

时间: 2024-09-13 02:27:59

演讲稿丨徐伟 人类离实现通用人工智能还缺少什么的相关文章

演讲稿丨李磊 深度学习让计算机和你我说话对答

       今天碰到了很多以前的同事以及徐伟老师.我非常有幸两年之间跟徐伟老师和余凯博士有非常亲密的合作,跟他们学到了非常多的东西.今日头条是一个内容的生成平台以及分发平台.我们需要鼓励更多的人来参与内容的创造,在这个平台上面会有比传统平台更多的内容,每天可能会有上百万的内容,所以这个平台更需要通过人工智能机器学习的方法,来给每个用户推荐个性化的,你所喜爱的,你所需要消费的内容.        我今天会围绕深度学习的理解和视频分析方面的应用.66年前计算机领域的一位前驱在一篇很有名的文章<计算

演讲稿丨杨铭 深度学习发展的新趋势

       大家好,我是杨铭.非常荣幸有这样的机会跟大家分享我们对深度学习研究发展新趋势的一些思考和总结,我们将这些新发展的首字母缩写成一个单词MARS.这是和我的同事黄畅博士共同的一些讨论.     简单介绍一下,我是去年夏天加入地平线的,负责软件工程.在此之前我在Facebook人工智能实验室负责人脸识别算法研究和后端系统开发,也曾在NEC美国实验室和徐伟一起工作,学到很多东西.        在谈论深度学习的新趋势之前,我们应该首先明确一下深度学习的定义和它现在的发展状态.非常幸运,学术

徐伟宏:要基于大数据去经营顾客

[中国企业家网]2014年6月27日-29日,未来之星挑战赛暨 2014(第十四届)中国企业"未来之星"年会在湖北省咸宁市举行,"干货分享在今天上午拉开帷幕..孩子王的CEO徐伟宏把他对行业内的一些思考和大家做了分享. 徐伟宏的精彩语录: 未来某一段时间内,不是基于数据生产的公司,我觉得都有非常大的危机. 传统这两个字不是贬义词,没有伟大的企业,只有时代的企业. 不要说什么互联网公司,未来没有这个东西,未来每个公司都有网站,大家都认为是线上线下的融合.   徐伟宏   以下是

演讲稿丨胡郁 从“能听会说”到“能理解会思考”——以语音和语言为入口的认知革命

 今天非常高兴能够借人工智能60周年纪念活动的机会,和大家进行交流.我今天报告的题目是"从能听会说"到"能理解会思考".因为在过去的几年当中,其实我们讨论人工智能,我记得我在前几年的报告中讲了四个W,人工智能是什么?人工智能现在发展到什么阶段?人工智能将怎么样颠覆?人工智能还会有哪些新的进步?这次我的报告主要介绍一下我们在人工智能落地方面的具体的进展,我觉得过去大家已经有比较清晰的认识.最近一件比较重要的事情就是AlphaGo战胜了国际围棋大师李世石九段.在前段时间

演讲稿丨张代君 人工智能中的虚拟现实

   我很高兴参加今天的活动,在人工智能60周年纪念的特殊时刻,能跟各位同行共享这份报告.        过去人工智能60年的发展,尤其最近10年的发展,让我们看到了语音识别.手写文字识别.人脸识别这样的传统识别技术,在大数据的引导下逐步商业化并已经形成了一个很大的风口.这60年间经历了人工智能的三次发展高潮,可能由于没有进行标准化,人工智能的发展还处于比较初级的阶段.我们认为当下是人工智能的第三次高潮,还将会有第四次的到来.        以我们非常熟悉的移动通信为例,移动通信的历史只有40多

演讲稿丨李衍达 沿着Simon开拓下去

    我今天讲的是"沿着Simon开拓下去",因为Simon本身开拓精神很强.本来我跟钟义信教授说保证一刻钟就讲完,后来他说不行,你得多讲,现在我就尽量,希望能够在规定的时间完成这个任务.     因为我是做生物信息学的,对人工智能从生物信息学的角度有了一些领悟,所以想跟大家分享一下.Simon教授是人工智能的开拓者,他对人工智能的发展做出了重要的贡献,所谓人工智能是使一部机器的反应方式像一个人在行动时所依据的智能,所以人工智能的目标是实现人类水平的智能.它的出现我觉得可以追溯到图灵

指挥180万骑手 人类真的开始听人工智能的话了

指挥180万名骑手,每天完成300万订单,人工智能ET有了一份新工作--外卖调度员.1月11日,阿里云透露已经同饿了么合作研发出基于阿里云人工智能ET的新的调度引擎,正全面推行到外卖送餐领域. 吃一份热乎饭有多难? 消费者利用送餐平台订餐,无非就是想吃口热乎饭,但是这个要求在寒冷的冬天可并不容易.数据显示,饿了么每天配送订单超过300万,每天中午和晚上是送餐高峰期.以上海商城路配送站为例,每6秒钟就要调度1单,这份工作已经完全不适合人类.但对人工智能而言,ET则非常擅长处理这类问题. 阿里云算法

元学习:实现通用人工智能的关键!

1 前言 Meta Learning(元学习)或者叫做 Learning to Learn(学会学习)已经成为继Reinforcement Learning(增强学习)之后又一个重要的研究分支(以后仅称为Meta Learning).对于人工智能的理论研究,呈现出了 Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta

(转) 深度增强学习与通用人工智能

    深度增强学习前沿算法思想 CSDN  作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至heyc@csdn.net本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>​ 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世