谷歌阿尔法机器人棋谱全面剖析

“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

虽然神经网络在几十年前就有了,直到最近才形势明朗。这是因为他们需要大量的“训练”去发现矩阵中的数字价值。对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年,一些能获取海量资源的团队重现挖掘神经网络,就是通过“大数据”技术来高效训练。

两个大脑

AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以我们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。

第一大脑: 落子选择器 (Move Picker)

AlphaGo的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。你可以理解成“落子选择器”。

(落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。)

团队通过在KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo落子选择器能正确符合57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)

更强的落子选择器

AlphaGo系统事实上需要两个额外落子选择器的大脑。一个是“强化学习的策略网络(Policy Network)”,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。

单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋AI媲美。这里重点是这种落子选择器不会去“读”。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。

更快的落子选择器

AlphaGo当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予AI的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但“阅读结构”需要去检查几千种落子可能性才能做决定。

Silver团队建立简单的落子选择器去做出“快速阅读”的版本,他们称之为“滚动网络”。简单版本是不会看整个19*19的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快1000倍,这让“阅读结构”成了可能。

第二大脑:棋局评估器 (Position Evaluator)

AlphaGo的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是论文中提到的“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多落子。

(局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。)

局面评估器也通过百万级别的棋局做训练。Silver团队通过 复制两个AlphaGo的最强落子选择器,精心挑选随机样本创造了这些局面。这里AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。

增加阅读

这里做了三个版本的落子选择大脑,加上局面评估大脑,AlphaGo可以有效去阅读未来走法和步骤了。阅读跟大多数围棋AI一样,通过蒙特卡洛树搜索(MCTS)算法来完成。但AlphaGo 比其他AI都要聪明,能够更加智能的猜测哪个变种去探测,需要多深去探测。

(蒙特卡洛树搜索算法)

如果拥有无限的计算能力,MCTS可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知宇宙里的粒子还多),实际上AI没有办法探索每一个可能的变种。MCTS做法比其他AI有多好的原因是在识别有利的变种,这样可以跳过一些不利的。

Silver团队让AlphaGo装上MCTS系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的AlphaGo系统按如下方式使用了所有这些大脑。

1. 从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让AlphaGo更弱,因为这没有让MCTS提供更广阔的选择空间)。它集中在“明显最好”的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。

2. 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo使用简单参数,“混合相关系数”,将每一个猜测取权重。最大马力的AlphaGo使用 50/50的混合比,使用局面评估器和模拟化滚动去做平衡判断。

随着他们使用插件的不同,AlphaGo的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo跟最好的计算机围棋AI差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。

(AlphaGo的能力变化与MCTS的插件是否使用有关。)

工程优化:分布式计算,网络计算机去提升MCTS速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。

优势和劣势

我认为AlphaGo在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。

但是,AlphaGo有个弱点在全局判断上。它看到棋盘式通过5*5金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。

就像其他的基于MCTS的AI, AlphaGo对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。

我还是很期待看到AlphaGo和李世石9段的对决!我预测是:如果李使用定式,就像跟其他职业棋手的对决,他可能会输,但如果他让AlphaGo陷入到不熟悉情形下,他可能就赢。

时间: 2024-10-01 01:05:18

谷歌阿尔法机器人棋谱全面剖析的相关文章

Android之父鲁宾正在谷歌开发机器人项目

Android之父鲁宾正开发机器人项目新浪科技讯 北京时间12月4日上午消息,据<纽约时报>报道,谷歌Android前主管安迪·鲁宾(Andy Rubin)正在开发新一代机器人,但这款产品不会瞄准消费市场, 而是主要服务于电子产品生产线,甚至有可能应用于零售领域,与亚马逊等企业展开竞争.鲁宾对<纽约时报>透露,谷歌的机器人项目着眼于十年后的愿景.该公司已经在美国和日本秘密收购了7家与机器人相关的公司,使之具备了开发移动机器人的能力.鲁宾还指出,仍然需要在软件和 传感器领域有所突破,

百度谷歌蜘蛛机器人活动规律

我们大家一定知道百度和谷歌有一个蜘蛛机器人,换句话说就是百度和谷歌的一套收录网站的程序或系统,我们都称它为蜘蛛机器人,他们是程序不是人,也不是神,所以它们总有自己的活动规律,下面就来谈谈. 一.网站收录初期 网站被百度收录初期的活动规律,首先进入你提交的网站首页或页面,然后从源文件中分析提取出你提交页面下的内链,然后逐一的提取你的网页.当然它不会一天两天的就给你把你加的内容,全部爬行完,它们会分不同的时间段进行爬,然后给你计算出蜘蛛在你网站的活动时间及时间的长短.如果百度蜘蛛机器人一旦发现你网站

谷歌让机器人在云端协同学习,新技能高效get

什么?谷歌最近又有大动作?他们计划加速机器人学习进程,让更多机器人通过分享它们的经验,获取更多技能点? 是的!Google Brain team的Sergey Levine以及来自Alphabet的DeepMind和Google X 实验室的高手们通力合作,在几天前发了篇博文,说他们接下来要打造一个叫"多机器人通用技能学习"的机制. 众所周知,指导机器人做一些日常生活中最基本的事情已经困扰所有机器人学家几十年了.为了解决这个问题,谷歌科学家们决定让两大当红科技创新炸子鸡强强联手,看看能

不止图像识别,Facebook谷歌正教机器人成为抽象画家

2014年11月,谷歌研究院发表的一篇博文称,未来谷歌的图形识别引擎不仅仅能够识别出照片的对象,还能够对整个物理场景进行简短而准确的描述,也就是"图像识别神经网络"(简称"神经元网络").对该技术进行研究的还有Facebook.近日,两家公司各自对透露了该项目的最新研究进展.本文综合了网易科技.腾讯科技的相关编译报道. 神经元网络--人工大脑,其可以立即识别照片中人的面部.车辆.建筑物以及其他对象.但是,该系统局限性仍存. 该网络基于机器语言翻译方面的研究成果:通过

谷歌旗下机器人军团 - 逆天了!谷歌在下一盘很大的棋

class="post_content" itemprop="articleBody"> 本月早些时候宣布,该公司的秘密部门已经收购了多家机器人公司时,整个互联网都为之振奋.而当谷歌收购波士顿动力(Boston Dynamics)公司的消息传出后,互联网真的炸开了锅-- 这是因为波士顿动力公司开发了令人很多不可思议的机器人,而且把很多视频上传到网上.虽然这项收购的具体前景还不明确,但还是有必要回顾一下波士顿动力公司之前开发的一流机器人. SandFlea 这本

谷歌“学习机器人”:像人类大脑一样去思考

近日,Google科学家杰夫·狄恩(Jeff Dean)告诉<第一财经日报>记者,"http://www.aliyun.com/zixun/aggregation/13939.html">Google X"实验室通过连接16000台计算机处理器,创建了一个机器学习的神经元网络系统.结果发现,这个系统自己学会了对猫的辨认. 去年夏天, Google X利用这一由16000多个处理器.10亿个内部节点组成的虚拟大脑,分析了1000万帧从Youtube上随机抓取的

这个时代,传统媒体是什么?能做什么?

传统的平台.介质或许会式微,但新闻不会消亡.作为优质内容的提供者.思想的生产者,媒体不可或缺.理想还有价值,职业还有担当.不管媒体形态怎么改.舆论格局怎样变,原创仍是社会最宝贵的资源,思想仍是媒体最重要的品质,理性仍是时代最需要的力量. 这个时代,传统媒体是什么?能做什么? 传统媒体人,只要不是坐井观天,不能不感到互联网新媒体的强大压力. 然而,在互联网海量信息.庞大流量的冲击下,我们没有必要怀疑自己,失去尊严和自信.有人说,今天是精准分发新闻的时代,一切用"算法"解决问题.没错,&q

谷歌为何研发机器人?欲卡位新人机交互

近日,谷歌在机器人领域动作频繁,出手收购了开发四脚兽机器人的波士顿动力公司.在http://www.aliyun.com/zixun/aggregation/11510.html">网络搜索和移动互联网.可穿戴搜索之外,谷歌在机器人市场潜心耕耘,其动机何在?美国科技网站TechCrunch发文分析称,谷歌是一家对数据永远充满饥渴的公司,而未来数据的来源将来自于线下世界,机器人将成为采集实体世界数据的工具. 一些人或许会问,谷歌还需要机器人项目吗?因为该公司已经掌控了移动互联网市场,全球十几

谷歌联手富士康开展产业机器人研发

[导读]富士康董事长郭台铭近期与谷歌机器人项目负责人鲁宾会晤. 腾讯科技 李路2月11日编译长期以来,人们想到富士康自然 就会联想到美国科技巨头苹果公司,以及其每年为后者代工生产的不计其数的iPhone和iPad.然而,最近有消息人士称,这家全球最大的代工企业正在与互联网搜索巨头谷歌进行接触,其合作的对象则是机器人.消息人士还透露,谷歌负责机器人项目的高管安迪·鲁宾(Andy Rubin)自去年开始就与富士康就合作事宜展开磋商.为加快机器人的研发工作,富士康董事长郭台铭还在近期与鲁宾会晤,就机器