演讲实录丨刘知青 人工智能围棋的技术突破,标志着人工通用智能的到来

人工智能围棋的技术突破

标志着人工通用智能的到来

刘知青

CAAI理事

北邮计算机围棋研究所所长

    刘知青:大家上午好,很荣幸今天请到了各位嘉宾来合肥,有机会报道一下两个方面的东西:一个就是AlphaGo的技术突破,因为我们有很多的合肥围棋爱好者,肯定是关心为什么AlphaGo会产生这么大的一个作用,突破这个知识的关口,我们从技术和围棋的角度上面看它做了一些什么事情,产生的这个情况。第二个我谈一谈人工智能,因为AlphaGo这些东西它还不仅仅是一个围棋方面的,刚才王老也讲了,像谷歌这样的公司他志不在这里,他背后有很深的技术积累,我们说是某种意义上的通用技术,这个还不像人一样。就是类似的方法已经可以应用到其他领域上来来了。我就先讲一下这个AlphaGo的技术突破。

    比赛之前我已经预测了一下比赛的结果,虽然我们不是第一个能够突破它的的,但是我们跟踪这个前沿,然后1月28日发表的文章以后我们第一时间做了解读。当时我们预测是这样的三点,是比赛之前预测的。我就说第一点李世石不可能全胜,2机器的胜点更大一点。3,甚至有内幕消息说李世石会感到意外的。事实就是这样的李世石完全被AlphaGo全败了。这个团队开始做这个AlphaGo是两年之前,他们谷歌的目的是否能用一个最新的人工智能技术或者计算机的技术是不是能够理解和识别人工智能。到了去年8月份的时候我们知道它已经有了突破,因为11月份的时候我们在北京做第一次的世界计算机围棋锦标赛,为了做这个比赛我们在三四月份的时候就去各地邀请世界上所有的顶尖围棋队到北京来。很多人非常积极的,其中有一个是法国的围棋,他第一个时间报名来参加的,然后他还帮助我说,你还可以请这个人,请那个人,可是到了8月份他给我来了一封邮件,他说对不起老师11月份可能我来不了了,他是唯一一个人中间退出的。当时我还不知道,我说我们请你来我们提供最好的条件,你有什么问题我们都可以全面解决,他说不是你的原因,是因为我还有其他的事情要做。现在回头看这个问题就很简单了,他是计算机研究的成员。作为这个博士论文导师,他是预先知道了AlphaGo的突破,AlphaGo那个时候已经完全突破了现有的模式和水平的话,当然他也没有必要到这里来,去年8月份的时候这个事情就已经出现了。所以他就不来了。到了10月份这个AlphaGo就公布了。从当时的计算机水平,到五子、六子,到战胜樊麾就是巨大的突破。我们从软件角度来说AlphaGo是一个软件,是一个系统,它有版本,它不是一个永远不变的,到了去年10月份的时候它的版本13,5比0战胜了樊麾,到了今年1月份的时候它已经进化到版本18了,它可以让版本13四颗子了。本来AlphaGo还准备邀请其他的职业,邀请中国的职业选手到春节前后到硅谷或者到伦敦对AlphaGo做进一步测试,但是当它知道这个AlphaGo版本18可以让版本13四颗子的时候,这个测试已经不太需要了。因为我想这里有很多职业选手,比我水平高很多,你可以设想一个职业选手让樊麾四粒子吗?你很难想象这个结果。所以他们很有信心3月份就直接挑战李世石。作为一个参考,大概成出职业选手一千分。

    当然到了3月份就是版本18战胜了李世石,4比1。我的消息是说版本18还不是最终的,有确定的消息说有版本19,但是具体什么情况我就不便透露了,比版本18还要强大很多。那么AlphaGo的水平仍在不断提升过程中,尤其是在它的价值网络水平上面。就是这个团队没有放弃,他们认为他们还没有遇到瓶颈,他们还在继续升级也就是说我们今天如果再看到AlphaGo,既不是版本18,又不是版本19,就不是战胜李世石了,可能是另外一个版本了。我们也看一看它的成长的时间表,这个是谷歌公布的一个图片。左边这个树的是级别,横轴是18个月,18个月就是它的级数长了18段,从业余三级到职业九段,每个月大约长一段。而且这个曲线几乎是没有停下来,当然这个最终那块,就是到3月份那里,还没有停止现在。

   

    下面我说一下人工智能围棋的技术,我们回顾一下早期是怎么做的,一起AlphaGo的突破。陈志行教授的水平应该是到了业余六段,他得过全国高校教师围棋比赛得冠军。当然他完全是根据自己对围棋的理解,把围棋的知识都写到他的程序里面来了。但是它有一个主要的缺点,就是说以围棋的知识无法覆盖围棋的变化,围棋的变化太多了,你用一个知识都有一个场景约束,你这个场景是怎么约束它的,就是很难通过这个知识来归纳的,不可能完成。第二种方法就是完全抛弃了职业选手或者是人类的知识,它是用了一种概率的方法来做围棋的计算的。使用了概念模型获得复杂的数据计算。假设我们计算一个无理数,你可以看哪些点是在圆里面,这些圆里的这些点的个数比上放块里面点的个数,其实就是一个派的体系了。围棋也可以的,围棋的盘面也很复杂,我们是不是可以通过随机数的统计方法来判断当前盘面的好坏。现在所有围棋的方法都是使用概率模型来对每一个盘面进行估计,这个是法国人最先做的。这么做也有一个问题,就是说盘先很多,比如说现在我有三百个点可以做,每个点都去试试可能性,这样效率就不高了。因为虽然有三百个点,你会发现你没有多少时间去真正算那些的,需要把你有限的计算资源,放在那些真正可能下的点。所以它有一个最大信心上限搜索的方法,根据胜率分配蒙特卡罗评估的资源使用,加大在高胜率选点上蒙特卡罗评估,以提高计算效率。2006年这个蒙特卡罗的搜索已经达到了业余五级的水平。但是这个蒙特卡罗搜索的主要缺陷就是在于蒙特卡罗评估的“冷启动。就是如果一开始什么都不知道的话,我们知道做统计评估的时候只有数量比较大的时候,你的评估结果才有意义,你如果只评估三次,很可能就是一个非常偏差的结果。职业选手不是这么做的,职业选手是有非常强大的围棋的棋感,即使不是职业选手,我们下过围棋的一些业余选手,我们经过一定的积累,我们对棋型都有一定的积累,这些积累是我们评判的一些基础,我们不能把这些基本放弃了,这个就是棋感直觉。棋感直觉再加上技术思想,就完全克服了这个缺陷。我们看看落子直觉吧,这个就是给你一个盘面,任意的,它可以推荐合乎人类棋手落子的科学性,比如说在这个上面它就体现出来了哪些标着数字的,现在是黑下,黑可以弯头,可以贴在白棋上面等等,有不同的下法。盘面有三百多个可能,但是它选择了十几种走法,都是合乎科学的。第二个就是胜负棋感,胜负棋感就是无论你怎么下我都是赢的,,还有对半的机会,右边这个图就是表示了每个点它的胜率,越难一点的是说明我们的胜率更高一点,比较高的几个点都标出来了,大概在50%左右。这个胜负棋感是怎么得到的呢?它是AlphaGo自我堆积三千万盘,这个速度比刚才王老提的五秒一步还要快,它有一个快速计算的方法,它下了三千万盘,然后三千万盘里面每一盘找出一个胜负关系,通过这些关系来获得这个胜负棋感。然后这两个棋感直觉再辅助于蒙特卡罗搜索来进行验证,最后就是这么一个落子顺序了。它公布的是版本13的情况,搜索一步他往前看了28步。在刚才这个盘面下它认为它应该走图标的这个地方,如果这样它预测白棋将走一路二路跳,然后黑棋还有机会在四路上扳,这个局部就告一段落了。我看看了这个28步应该是几乎每次都是这么一个深度,28步还是挺深的,像我们业余选手我也就是看9步、10步顶多了。当然28步是在几乎所有的情况下都是这样,不会像我们人在某种情况下能算40步,50步的。

    这个就是我要说的AlphaGo的技术突破,下面我再谈一下人工智能围棋。

    我这块的标题是人工智能围棋的技术突破标志着人工通用智能的到来。我们准备讲述一下人工智能围棋研究的意义,核心技术突破,然后介绍两个背后的方法,一个是深度学习神经网络,一个是增强型学习算法,以及展望一下这些方法对于将来的影响。

    围棋当然非常重要了,围棋其实是我们当今世界上唯一一个最复杂的,就是肯定是最复杂的,人类经过流传过来的一个东西。当然你也可以设置一个新的围棋,就是比如设置一个29步的围棋,围棋是经过历史流传,有至少三千年的历史,现在世界上至少有四千万个围棋选手,还不包括爱好者的学习的孩子们。盘面的变化是在10的170次方,应该是比我们现在世界所有的原子的个数还要多。它是一个最复杂的致力游戏。早在北宋沈括就算过了,就是说一个点三种状态可以放黑子可以放白子,也可以不放子。最后我们现在算了一下结果是10的170次方。围棋一直被视做人工智能领域的一个重大挑战,它跟象棋不一样,象棋它是一个完全可以通过蛮力计算的,也就是10的46次方,但是人工智能领域里面我们发现这个方法是不可能直接用在围棋里面的,第一它的变化太多了,第二很多情况下不是通过蛮力来算的,比如右边这个图是02年,我们安徽的中科大的张达人教授,他做了国际象棋和围棋对弈过程中思维的扫描,它会发现就是说做围棋下棋的时候它的形象思维非常重要。它不仅有形象思维,又有逻辑判断,又有规划选择诸如此类的一些东西,是一种多种智能的一种综合。当然一直认为要解决这个东西是重大挑战,我们需要十到二十年的时间。其中两大难题是什么?一个就是我们叫做庞大的搜索决策空间。因为你要不做简单的智能去选择的话,你会面临很多很多的选点,一步棋有200个选点,两步棋就是200×200了。第二个就是胜负的评价。我记得有一次李世石跟唐为新三盘棋,第一盘棋下完了李世石他不知道怎么输的,就是点错误了,到了中盘的时候就更容易选错了。所以怎么去辨认这个错误。你怎么评价这个是好还是坏呢?而且棋子稍微挪一步可能结果就错了,所以这个很难直接就去判断胜负。就是这两个问题的。当然围棋既是一个目标,又是一个标尺,这个目标促使我们探索新的技术来克服这个目标,当然你要不断克服这个目标,表示你的人工智能技术水平达到了一个高度可以应用到更广泛的领域。我们认为AlphaGo战胜李世石标志着人工智能已经获得了重大突破。这个突破是什么?我的总结就是还是机器的直觉,直觉是职业棋手依赖、判断众多可能性的一个重要考量。它是通过长期的训练,长期的对弈积累下来的。AlphaGo的人工智能基础上面的突破是实现了一定层面的机器直觉。它给你一个盘面,它也能够给你一个当前的落子选点,以及胜负判断,而且这些选点和胜负判断都是非常高明的。有了这两个直觉就可以帮助我们克服刚才的两大问题,一个就是搜索空间巨大,一个就是盘面很难评估它的好坏。我们用这两个直觉来克服这两个问题。

    怎么来克服这两个问题呢?第一本来是这么一个庞大的搜索空间,是一个非常大的数,第一个就是用了这个落子选点的直觉来缩小了这个搜索的宽度。因为某些落子点是不可能的了,你不要去考虑它,你只要考虑那些高可能的落子选点。所以那些不可能的选点,通过落子直觉就把它排除掉了,这样在广度上面就缩小了范围。另外一个就是胜负的直觉判断,这样它可以在深度上缩小你的搜索空间。因为某些点你一看我这边已经不行了,就不要再继续考虑了,或者说这个对方不行了,如果对方不行了,对方也不需要去下这样的子,你必须设计双方最有可能的,最佳的落子点去选择。所以通过这两个直觉有效的缩减了搜索空间。换句话说它在搜索空间上面进行搜索,但是他是通过这两个直觉进行有效的直觉,这两个直觉指引了他在有效的空间进行搜索。这个是怎么做的?它是用了我们生物学的神经网络。这个神经网络某种程度上就是一个黑盒子,这边有棋盘的输入,输出的时候可能就是一个胜负的概率。神经网络在一定程度上是模仿人脑的神经元的组织结构,这个思想已经有几十年了。比如说为了做图象的识别,其实围棋最后做图象识别的时候要做复杂的数学计算,没有大量的计算资源是无法做到的。深度学习神经网络就是建立大规模的数据集的训练,这种神经网络技术本身是一种通用的技术,就是神经网络在这个地方可以搭建,做它们之间的构建,这个本身并不具有任何指引。只有通过搭建这些神经网络再用数据去训练它,然后调整它的参数,这个数据本身是领域的。它有两个主要的学习:一个是有监督的机器学习,就是你要告诉机器你要怎么做。其实人类在不同盘面的落子,就是把人类的知识教给了机器。在这个盘面上,你要这么下,诸如此类的东西,这些都是人类的知识。它通过人类交谈,人类标注的数据来进行学习。另外一个就是我们的增强型学习。这个应该是AlphaGo的最重要的核心。什么是增强型的学习?它的原理起源于动物的行为心理学。它是根据不同的行为给予不同的奖励或者惩罚来引导机器或者引导动物获得更多的奖励,从而调整它的行为。比如说教孩子的时候,孩子这个情况下总要犯错误,但是你要鼓励他尝试不同的事物,同时要鼓励或惩罚。比如说一盘棋,我每次这么下就会输了,那我自然就不会这么下,人也有自我的学习能力。就是为了你的目标你会调整你的行为,最大化你的目标的实现。这个就是引导学习的一种方法,而且是AlphaGo成长过程中一个最有效的方法。它是学习了什么东西呢?就是学习最后胜负的关系,胜负就是说我下的过程中,总共下了200步棋,最后我输了,我要把这个输的这个惩罚映射到我下的那200步棋里面去,要映射给每一步棋。当我有足够大数据的时候,我就会知道哪步棋现在是比较差,哪个盘面是最后导致我输的结果。赢了棋我会把这个奖励复制到我下的别的棋步里面,我以后就多下这样的棋。这样他就学习到了。神经网络算法是最重要的,并不是用到很多的机器。而且深度学习的这个增强型学习算法,可以不仅仅用于围棋,早期AlphaGo的团队是用它来解决打电视上的早期游戏,而且他们现在或者已经在做了医疗的诊断上了。

    我们总结一下这个地方我们叫做数据驱动人工通用智能。无论是神经网络还是增强型学习算法,都是把领域无关的人工智能,而训练深度神经网络的海量数据,以及增强型学习过程中所需要的奖励与惩罚都是相关的知识。比如你诊断出医疗上如果人没有诊断出来而产生了病,这个也是惩罚等等,像这样的数据以及奖励和惩罚都是与之相关的。我们人工智能围棋所展示的前沿智能方法就是把领域相关的这些数据,应用到领域无关的人工智能技术上。它的意义和前景是这样的,首先它的三大技术基础:它有大数据,有深度学习的神经网络和高性能的计算,因为需要大量的计算资源才能够可以。我们最近在跟国家超导中心在做类似的工作,也就是使用最先进的计算机来做计算。而且我们认为这个东西已经具有了一定的通用性,虽然这个通用性还不是像人一样,又能下象棋,又能开车,如果是医生还能诊断。但是这种方法在一定程度上具有通用性。现在可以用在围棋上面,已经开始应用在医疗诊断、自动驾驶等其他的领域了。当然我们认为它对于将来有重大的意义前景,其实很多人已经在不同程度上面找到我,说刘老师你能不能把你们的技术跟我们的比如医疗或者什么样的结合在一起,大家的需求非常非常大。

    我就举两个例子,一个就是医疗诊断。医疗诊断,其实昨天报告的时候IBM的沈院长也提出了,医疗诊断有巨大的市场。第二就是现在缺乏智能的设备能够及时的识别疾病。有些非常重要的病比如说急性肾损伤,肾损伤是一个非常常见的病,你要到ICU里面去,几乎50%的病人都有这样的病,但是识别非常难,即使两个肾都坏了,可能24小时之后才能发现。但是人工智能如果把这些医疗数据和我们刚才说的方法相结合,就能够早期的预测,它能看这个片子,他能看这些数据,你现在还没有得这个病的,我甚至可以早期的预测你是不是半个月以后或者半年以后会得这个病,易特曼公司已经开始做这个事情了。第二个就是自动驾驶,昨天我们也专门讲了自动驾驶的原理,其实他说方法跟我的一样,就是一边使用传感器对于驾驶场景的获取,可能包含视觉,包括雷达的数据诸如此类的,另外一个就是人对它的操作,这个其实就是数据量的,在这样的场景下人做这样的一个操作,人在这个情况下是要踩刹车的,在那种情况下是要转弯的诸如此类的,这些也是可以通过这些数据来训练海量的数据,来模拟神经网络的东西。当然很多其他的公司也在做。最后我就总结一下,就是人工智能,我们正处在人工智能爆发的转折点,这个AlphaGo的突破其实看到了我们原来不能做的事情,现在我们都能做了。我们预测未来几年数据驱动的人工通用智能会有井喷式的发展。

  引用乔布斯的一句话,但是我改了一点点:从机器的角度来看,秃鹰是地球上向往最高的动物,但是骑上自行车以后,人便能把秃鹰甩在后面。人工智能是我们发明出来的最非凡的工具,相当于我们大脑的自行车。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-09-28"

时间: 2024-08-01 09:39:24

演讲实录丨刘知青 人工智能围棋的技术突破,标志着人工通用智能的到来的相关文章

演讲实录丨刘林坤 打造虚拟现实内容平台

打造虚拟现实内容平台 刘林坤   北京极维客科技有限公司 联合创始人 刘林坤:今天来的人水平比较高,我们属于比较小的公司,但是就我个人而言,是比较标准的连续创业者,比较喜欢刚才的小熊尼奥公司,它的技术不是最新的,但是应用做得很好.     VR硬件是一部分,内容如果娱乐端就是两部分,一个是游戏.一个是影视,大概就这三块东西,这是我分享的内容,我们这一块的人群其实可以发现,跟刚才熊总说的K12往下的人,我们覆盖的人是16岁往上的人,VR真正的用户应该是在95后,包括小朋友,比如说现在开始玩小熊尼奥

演讲实录丨王士进 人工智能开启智慧教育新模式

人工智能开启智慧教育新模式    王士进 科大讯飞研究院副院长,智学网副总经理 王士进:各位嘉宾上午好!我是讯飞研究院的王士进.非常高兴能够根据汇的嘉宾一起分享讯飞在人工智能以及人工智能和智慧教育结合的一些一些看法,那么今天我的报告的话分为3个部分第一部分的话是简单介绍一下人工智能技术以及讯飞在他们做了一些工作.然后第二个部分和第三部分的话分别介绍人工智能在我们智慧教育中在考试以及教学这一场景一些应用. 讲到智能和人工智能,那么这里边的话关于这个定义其实很多,但是最基本的一个概念的话我们认为如果

演讲实录丨黄学东:语音识别和人工智能进展回顾

黄学东:大家好!我今天非常高兴来到北京,在强烈的灯光照射下我看不到大家,但是大家能看到我.在我开始之前,我想跟大家简单介绍一下,我们是怎样一个激动人心的时代,我们生活在这个时代多么幸运. 我们过去多少代人没有实现的梦想,这是一个非常激动人心的时代.在我开始之前,我想给大家看一下经济学人的封面故事.封面故事说,我们终于可以和人交流了,封面故事讲的非常深刻,它是从1954年,IBM从做机器翻译开始,描述了从50年代.60年代.70年代,一直到2016年,几个很重要的历史性的里程碑.这里可以看出来,在

CAAI演讲实录丨李德毅院士:交互认知——从图灵测试的漏洞谈开去

8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大.规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用. 27日上午的第一个主题报告,是中国工程院院士.中国人工智能学会理事长李德毅的<交互认知--从图灵测试的漏洞谈开去>.李德毅院士首先从图灵测试在面对自闭症的情形.手机交互认知.教育的

演讲实录丨吕学强 当代教育的智能化趋势

当代教育的智能化趋势 吕学强  北京信息科技大学网络文化与数字传播北京市重点实验室副主任,中国语言智能研究中心特聘教授 吕学强:各位老师,各位同学大家上午好,我汇报的题目是当代教育的智能化趋势,这个报告本来应该由,首都师范大学的周建设副家长来.住他今天要进行一个非常重要的高级和验收工作,所以委托我来做这个报告.我们下面这个以中国语言智能研究中心,是9月18号,刚刚挂牌的是由国家语委设立的3个科研基地之一.周建设副校长他有资力和有能力来进行对教育的思考,那么在这里简单介绍,他的就是一些经历.他现在

CCAI演讲实录:《关于人工智能发展的思考》--谭铁牛

谭铁牛:各位同仁.各位朋友,以及正在网路上观看网络直播的各位网友大家好,今天是个好日子,5月底.6月初我们国家召开了全国科技创新大会,吹响了建设世界强国的号角,不到3个月的今天,我们再次欢聚一堂,召开一年一度的中国人工智能大会,首先代表这次会议的主办单位发起单位中国人工智能学会对各位的参与表示热烈的欢迎.这次会议也是在去年召开人工智能大会的基础上又一次召开,今天这个会议也是中国人工智能学会和相关的兄弟学会一起来纪念的活动,所以我想组织这样一个会议,主要的目的还是希望为人工智能领域的各位同仁.各位

演讲实录丨朱珑 开启人工智能之眼

开启人工智能之眼 朱珑 依图科技CEO.计算机视觉专家  朱珑:非常感谢张老师和白老师邀请,让我们这些青年人有机会在这里聚一聚.今天讲一下AI一些自己的理解,可能跟大部分人身份稍微有一些区别,我大概从事这方面学术上研究将近十多年时间,前面几年开始做创业,可以从两个行业纬度谈一谈之间相关性.     不知道我们在国内怎么谈创业?在美国有一个创业或者硅谷有一个创业基本定义,中国创业在美国是有两个词,极不确定性情况下追求高速增长.这两个词推出什么不是创业?比如说我们在国贸这里开一家咖啡厅,这不是创业,

演讲实录丨山世光 闲话AI时代的视觉智能

小编按 10月22日,来自国内外人工智能专家及行业领袖齐聚世界机器人大会,在其专题论坛2016中国智能机器人产业高峰论坛上展开一场别开生面的机器人和人工智能主题演讲,并带来精彩互动交流. 了解到还有很多粉丝不能到场参会,小编特地整理了参会嘉宾中科视拓董事长.计算机视觉专家山世光的报告速记,让大家一睹为快~ 本文根据速记进行整理 闲话AI时代的视觉智能 山世光 中科视拓董事长.计算机视觉专家 山世光:非常高兴今天有机会到这样一个论坛上来分享一下关于在人工智能时代的计算机视觉发展情况.今天我们这个论

演讲实录丨季向阳 无人系统智能传感与计算

无人系统智能传感与计算 季向阳 清华大学教授 季向阳:我演讲的题目是无人系统智能传感与计算,应该说在智能里面除了我们提到很多算法之外,我们是从远端怎么把这个信息获取到,所以我们的题目是无人系统智能传感与计算.无人机系统里面,很多航空.水面等等一系列,核心涉及到我环境从简单到复杂,任务也是从简单到复杂.     我们从无人这样平台来说,你要实现自动,一个非常简单例子,大家肯定做过飞机,飞机首先找到自己位置,我们需要GPS.你要知道朝向位置,所谓姿态,就需要管道这方面的信息.真正在旱路里面飞机飞的非