【独家解密】你知道 Google AlphaGo是怎么赢李世石的吗?

2016年1月28日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光!

 

是什么使围棋算法产生了质的飞跃?要知道,在之前最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗?

 

对于大多数人来说,大家都知道1997年的“深蓝”计算机战胜了人类的国际象棋冠军卡斯帕罗夫,但是大家都不会认为“深蓝”真正拥有了人工智能,道理非常简单:国际象棋(当然围棋也是)每一步都是可见的,在一个确定性的棋局下,仅有有限个走法。这有限个走法中必然有一个最优的。一个基本的想法就是对棋局进行预测,遍历每一种走法直到一方胜出,然后回退计算每一个可能赢的概率,最后使用概率最高的作为最优的走法。“深蓝”就做了这么件事,暴力穷举所有的步子,然后找最优!赢了人类,但没有智能,因为整个算法完全就是人工设计的一个算法,根本看不到智能在哪里。

显然围棋理论上也可以暴力破解,但是问题就在于围棋的可走的步子太多了,以至于目前的计算性能根本做不到暴力破解。这也就是为什么围棋是挡在人工智能面前的一个重大挑战。

1、要使围棋程序战胜人类顶尖高手,只有依靠真正的人工智能!

对围棋有了解的朋友都知道下围棋需要对整个棋局有直观的理解,这就是围棋困难的地方。除非计算机真正理解了棋局,才有可能有大局观,才有可能下出真正的好棋!

那么,问题来了:

AlphaGo 有真正的人工智能吗?

我的回答:

AlphaGo有真人工智能,虽然还不完美!

那么

AlphaGo的真人工智能在哪里?

我的回答:

就在深度神经网络之中

一切的答案都在Google Deepmind在Nature上发表的文章: 

Mastering the Game of Go with Deep Neural Networks and Tree Search论文链接

本文将分析AlphaGo的这篇Nature文章,去解密真人工智能的奥秘!

AlphaGo的”大脑“是怎样的

深度神经网络是AlphaGo的”大脑“,我们先把它当做一个黑匣子,有输入端,也有输出端,中间具体怎么处理先不考虑。那么AlphaGo的”大脑“实际上分成了四大部分:

  • Rollout Policy 快速感知”脑“:用于快速的感知围棋的盘面,获取较优的下棋选择,类似于人观察盘面获得的第一反应,准确度不高
  • SL Policy Network 深度模仿”脑“:通过人类6-9段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法。
  • RL Policy Network 自学成长“脑”:以深度模仿“脑”为基础,通过不断的与之前的“自己”训练提高下棋的水平。
  • Value Network 全局分析“脑”:利用自学成长“脑”学习对整个盘面的赢面判断,实现从全局分析整个棋局。

所以,AlphaGo的“大脑”实际上有四个脑区,每个脑区的功能不一样,但对比一下发现这些能力基本对于人类棋手下棋所需的不同思维,既包含局部的计算,也包含全局的分析。其中的Policy Network用于具体每一步棋的优劣判断,而Value Network则对整个棋局进行形势的判断。

而且很重要的是,AlphaGo提升棋力首先是依靠模仿,也就是基于深度模仿“脑”来进行自我水平的提升。这和人类的学习方式其实是一模一样的。一开始都是模仿别人的下法,然后慢慢的产生自己的下法。

那么这些不同的脑区的性能如何呢?

  • 快速感知“脑”对下棋选择的判断对比人类高手的下棋选择只有24.2%的正确率
  • 深度模仿“脑”对下棋选择的判断对比人类高手的下棋选择只有57.0%的正确率,也就是使用深度模仿“脑”,本身就有一半以上的几率选择和人类高手一样的走法。
  • 自学成长“脑”在经过不断的自学改进之后,与深度模仿“脑”进行比赛,竟然达到80%的胜利。这本质上说明了通过自我学习,在下棋水平上取得了巨大的提升。
  • 全局分析“脑”使用自学成长“脑”学习训练后,对全局局势的判断均方差在0.22~0.23之间。也就是有大约80%的概率对局面的形势判断是对的。这是AlphaGo能够达到职业棋手水准的关键所在。

从上面的分析可以看到AlphaGo的不同“脑区”的强大。具体每个大脑是怎么学习的在之后的小节分析,我们先来看看有了这些训练好的大脑之后AlphaGo是如何下棋的。

2、AlphaGo 是如何下棋的?

在分析AlphaGo是如何下棋之前,我们先来看看一下人类棋手会怎么下棋:

  • Step 1:分析判断全局的形势
  • Step 2:分析判断局部的棋局找到几个可能的落子点
  • Step 3:预测接下来几步的棋局变化,判断并选择最佳的落子点。

那么,AlphaGo在拥有强大的神经网络”大脑“的基础上采用蒙特卡洛树搜索来获取最佳的落子点,本质上和人类的做法是接近的。

首先是采用蒙特卡洛树搜索的基本思想,其实很简单:

多次模拟未来的棋局,然后选择在模拟中选择次数最多的走法

AlphaGo具体的下棋基本思想如下(忽略掉一些技术细节比如拓展叶节点):

  • Step 1:基于深度模仿“脑” 来预测未来的下一步走法,直到L步。
  • Step 2:结合两种方式来对未来到L的走势进行评估,一个是使用全局分析“脑”进行评估,判断赢面,一个是使用快速感知“脑”做进一步的预测直到比赛结束得到模拟的结果。综合两者对预测到未来L步走法进行评估。
  • Step 3:评估完,将评估结果作为当前棋局下的下一步走法的估值。即给一开始给出的下一步走法根据未来的走向进行评估。
  • Step 4 :结合下一步走法的估值和深度模仿脑进行再一次的模拟,如果出现同样的走法,则对走法的估值取平均(蒙特卡洛的思想在这里)

反复循环上面的步骤到n次。然后选择选择次数最多的走法作为下一步。

说的有点复杂,简单的讲就是综合全局和具体走法的计算分析,对下一步棋进行模拟,找到最佳的下一步。对步子的选择,既要依赖于全局分析“脑”的判断,也需要深度模仿“脑”的判断。

分析到这里,大家就可以理解为什么在AlphaGo与Fan Hui的比赛中,有一些AlphaGo的落子并不仅仅考虑局部的战术,也考虑了整体的战略。

知道了AlphaGo的具体下棋方法之后,我们会明白让AlphaGo棋力如此之强的还是在于AlphaGo的几个深度神经网络上。

所以,让我们看看AlphaGo的大脑是怎么学习来的。

3、AlphaGo是如何学习的?

AlphaGo的学习依赖于深度学习Deep Learning和增强学习Reinforcement Learning,合起来就是Deep Reinforcement Learning。这实际上当前人工智能界最前沿的研究方向。

关于深度学习和增强学习,本文不做详细的介绍。深度神经网络是由巨量的参数形成的一个多层的神经网络,输入某一种类型的数据,输出某一种特定的结果,根据输出的误差,计算并更新神经网络的参数,从而减少误差,从而使得利用神经网络,特定的输入可以得到特定想要的结果。

以深度模拟“脑”为例。这个实际上是一个12层的神经网络。输入主要是整个棋盘的19*19的信息(比如黑棋的信息,白棋的信息,空着的信息,还有其他一些和围棋规则有关的信息一共48种)。输出要求是下一步的落子。那么Google Deepmind拥有3000万个落子的数据,这就是训练集,根据输出的误差就可以进行神经网络的训练。训练结束达到57%的正确率。也就是说输入一个棋盘的棋局状态,输出的落子有一半以上选择了和人类高手一样的落子方式。从某种意义上讲,就是这个神经网络领悟了棋局,从而能够得到和人类高手一样的落子方法。

换另一个角度看会觉得AlphaGo很可怕,因为这个神经网络本来是用在计算机视觉上的。神经网络的输入是棋盘,就类似为AlphaGo是看着棋盘学习的。

接下来的自学成长“脑”采用深度增强学习(deep reinforcement learning)来更新深度神经网络的参数。通过反复和过去的“自己”下棋来获得数据,通过输赢来判断好坏,根据好坏结果计算策略梯度,从而更新参数。通过反复的自学,我们看到自学成长“脑”可以80%胜率战胜深度模仿“脑”,说明了这种学习的成功,进一步说明自学成长“脑”自己产生了新的下棋方法,形成了自己的一套更强的下棋风格。

说到这,大家可以看到真人工智能来源于神经网络,具体神经网络的参数为什么能够表现出智能恐怕无人知晓?智能到底是什么还需要等待答案。

 

深度神经网络是人工智能的黎明!

知乎精选
下面简单介绍一下蒙特卡罗算法和拉斯维加斯算法的区别

 

蒙特卡罗算法并不是一种算法的名称,而是对一类随机算法的特性的概括。媒体说“蒙特卡罗算法打败武宫正树”,这个说法就好比说“我被一只脊椎动物咬了”,是比较火星的。实际上是ZEN的算法具有蒙特卡罗特性,或者说它的算法属于一种蒙特卡罗算法。

 

那么“蒙特卡罗”是一种什么特性呢?我们知道,既然是随机算法,在采样不全时,通常不能保证找到最优解,只能说是尽量找。那么根据怎么个“尽量”法儿,我们我们把随机算法分成两类:

  • 蒙特卡罗算法:采样越多,越近似最优解;
  • 拉斯维加斯算法:采样越多,越有机会找到最优解;

 

举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法——尽量找好的,但不保证是最好的。

而拉斯维加斯算法,则是另一种情况。假如有一把锁,给我100把钥匙,只有1把是对的。于是我每次随机拿1把钥匙去试,打不开就再换1把。我试的次数越多,打开(最优解)的机会就越大,但在打开之前,那些错的钥匙都是没有用的。这个试钥匙的算法,就是拉斯维加斯的——尽量找最好的,但不保证能找到。

所以你看,这两个词并不深奥,它只是概括了随机算法的特性,算法本身可能复杂,也可能简单。这两个词本身是两座著名赌城,因为赌博中体现了许多随机算法,所以借过来命名。

这两类随机算法之间的选择,往往受到问题的局限。如果问题要求在有限采样内,必须给出一个解,但不要求是最优解,那就要用蒙特卡罗算法。反之,如果问题要求必须给出最优解,但对采样没有限制,那就要用拉斯维加斯算法。

 

机器下棋的算法本质都是搜索树,围棋难在它的树宽可以达到好几百(国际象棋只有几十)。在有限时间内要遍历这么宽的树,就只能牺牲深度(俗称“往后看几步”),但围棋又是依赖远见的游戏,甚至不仅是看“几步”的问题。所以,要想保证搜索深度,就只能放弃遍历,改为随机采样——这就是为什么在没有MCTS(蒙特卡罗搜树)类的方法之前,机器围棋的水平几乎是笑话。而采用了MCTS方法后,搜索深度就大大增加了。

 

以上为知乎精选。


时间: 2024-09-02 13:02:05

【独家解密】你知道 Google AlphaGo是怎么赢李世石的吗?的相关文章

代号“ GProfile ” ——独家解密阿里标签利器

你可能已经知道达摩盘,也可能接触过虾米音乐给你推荐的好歌,当然你肯定经常在购物时,收到系统给你推荐的产品--但你肯定不知道,在营销推荐.产品推荐的背后,是一个庞大的算法工程,其中的一款标签体系,从未对外公布.     今天阿里数据将会独家解密这一标签利器,它的内部代号是-GProfile ,全称为全局档案.概括来说,GProfile 全局档案要做的事情是这样的:    目前,GProfile 全局档案是以消费者档案为核心构建内容,通过分析消费者的基础信息.购物行为以描绘其特征画像.    今后 

王家卫《一代宗师》热卖独家解密10分钟片花

<一代宗师>巨幅海报 柏林街头的"章子怡" 路人和"宗师"相遇 梁朝伟宗师气度 新浪娱乐讯 2000年,李安执导的动作片<卧虎藏龙>掀起美国在内的全球市场对于中国动作片的热情.10年过去,诸多中国导演追随这股浪潮尝试动作片拍摄后,王家卫的首部功夫片<一代宗师>才于近日柏林电影节EFM(欧洲电影市场)亮相.据透露,短短数日内,该片已售出亚洲.荷兰.比利时.卢森堡.法国.西班牙等20个国家和地区的发行权. 值得一提的是,数家知名老牌电

Google又一次赢了 比以往更强大了

中介交易 SEO诊断 淘宝客 云主机 技术大厅 很难想象Google在二个月前曾经是那么的弱不禁风.它的股价与最高点相比暴跌了45%.其两个最大的竞争对手━━微软.雅虎联姻似乎是"板上钉钉"的事儿. 但在周四举行股东大会时,Google显得比以往更强大了.它的股价出现了反弹.在它的阻挠下,微软最终没有能够如愿以偿地收购雅虎.市场调研厂商CanaccordAdams的分析师科林·吉利斯(ColinGillis)说,Google又一次赢了,太不可思议了.如果要购买互联网公司股票,没有比Go

AlphaGo 已经战胜了李世石,而你还不知道什么是机器学习?

谷歌人工智能 AlphaGo 与韩国棋手李世石 3 月 15 日进行了最后一场较量,最终比赛结果为 AlphaGo 4:1 胜李世石,人机围棋大战巅峰对决至此落幕.我不知道大家有没有被震撼到,反正我的老板是被震撼到了(后文会提到我老板震撼到后有什么具体表现和行动). 这篇文章,不想评价围棋的对局棋谱,也不想升华到什么人与智能之争巴拉巴拉的,因为确实不懂围棋(犹记得那个丢人的五子棋么?不止我一人看错吧!),也不懂如何理解新旧两代信息模式之争是个什么,我只是想不单纯的给大家科普一下什么是机器学习!

独家解密清科互联网并购座谈会:大佬们不会告诉你的事

12月12日,清科互联网并购座谈会低调"召开.由于是闭门会议,因此互联网.金融.上市公司里的大佬们所谈所想很难为外界所知.不过,作为本次会议的独家报道机构,投资界得以近距离听到这些大佬们的讨论,并节选了一些重磅级的新闻与小伙帮"们分享.互联网企业是非线性"的中信建投证券股份有限公司董事总经理徐炯炜认为, 互联网企业的特征是非线性成长.他举例说,上海有一家公司去年利润只有三千万,今年利润高达2.8亿,说明年有3亿多,这个报表出来的时候对整个市场震撼很大.用传统思维去理解的话,这

ACL 2017 | 三位阿里人工智能专家独家解密NLP、机器翻译优秀论文

7月底到现在,全球最顶尖的人工智能会议已在全球各地先后落幕: CVPR 2017(国际计算机视觉与模式识别会议,Conference on Computer Vision and Pattern Recognition) ACL 2017(国际语言学协会,The Association for Computational Linguistics)) ICML 2017(国际机器学习大会,International Conference on Machine Learning) SIGIR 201

独家解密英特尔处理器制造全流程

ZD至顶网服务器频道 06月14日 新闻消息(文/于泽): 微处理器的开发是商业世界中最具风险.代价最为高昂.也是技术上最为复杂的壮举. 英特尔位于俄勒冈州希尔斯伯勒市的微处理器工厂代号D1D,在进入这个1700万平方英尺工厂的净室前,你需要仔细地洗手洗脸,最好再排空膀胱,因为净室里没有卫生间,而且禁止使用化妆品.香水以及各种脂粉.书写工具是允许使用的,但前提是无菌.普通纸张因为存在微小颗粒被绝对禁止使用,如果你要写东西,需要使用一种叫"高性能文档材料"的类纸产品. 这大概是世界上最干

男人袜创始人陈伯乐:独家解密男人袜的独立站赚钱之道

中介交易 SEO诊断 淘宝客 云主机 技术大厅 本期师说,很幸运的请到了男人袜的创始人陈伯乐,之前已经已经有很多媒体报道过这位荆楚之地的创业"大男孩",在本期师说栏目中,伯乐兄不堪无节操的主持人XXXX的无底线的各种骚扰,只能吐露一些平时坚决闭口不谈的干货,希望能给大家在营销.在选择市场等等方面或多或少带来些启发,也希望伯乐的男人袜能越做越好! -------------精华互动整理------------- 互动1: 为什么刚开始不入驻平台而选择独立站?独立站和平台相比有什么优势 陈

人人公司联姻Recruit经纬网上独家解密

2011年6月15日15:00-15:30,经纬网CompanyDay活动将迎来两位重量级嘉宾:人人公司(NYSE:RENN)战略发展部总监舒韡女士和瑞可利集团(Recruit)战略发展部总监束午女士!两位嘉宾将在经纬网上与 网友互动,首次公开人人公司与瑞可利集团合作细节,与网友分享中国领先的互联网企业与日本最大的人力资源和分类信息服务企业强强联手背后的故事,并将回答关于互联网与婚庆产业联姻等网友关注的热点话题. 日前人人公司与瑞可利集团宣布组建合资公司,依靠人人网过亿的用户群体.SNS网站的强