AlphaGo Zero:从头开始学习

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud



人工智能研究在语音识别和图像分类再到基因组学和药物发现等各个领域都取得了快速进展。但在许多情况下,这些都是利用大量人力资源和庞大的数据支撑才完成的专业工作。

然而,对于某些问题,知识和数据的成本太高,太不可靠或者根本无法使用。因此,AI研究的长期目标是绕开这个困境,创造算法,在没有人工投入的情况下,挑战最具挑战性的领域实现超越人类的表现。在我们最近发表在Nature杂志上论文,我们展示了实现这一目标的一个小小的进步。

本文介绍了最新发展AlphaGo版本的AlphaGo zero,AlphaGo是第一个在围棋的古代中国游戏打败世界冠军的计算机程序。AlphaGo是强大的,但是AlphaGo zero是更强大的,可以说是历史上最强的围棋玩家。

以前版本的AlphaGo最初是接受了数千业余和专业人的游戏训练,学习如何玩围棋。而AlphaGo
Zero跳过这一步,整个学习过程是通过自己玩游戏,从完全随机的游戏开始。这样做的时候,它很快超过了人类的水平,而且还击败了以前发布的冠军版本的AlphaGo。

AlphaGo zero通过使用一种新颖的强化学习方法,AlphaGo Zero成为自己的老师。AlphaGo zero从一个不知道围棋游戏的神经网络开始,然后,通过将这个神经网络与强大的搜索算法相结合,自身与自身进行游戏。当它自己与自己下棋的过程中,神经网络被不断的调整和更新,以预测下一手以及最终的赢家的布局。
然后将这个更新完毕的神经网络与搜索算法重组,创建一个新的、更强的AlphaGo版本的AlphaGo Zero,并且让过程再次开始。在每次迭代中,AlphaGo zero系统的性能都会提高一小部分,自我游戏的质量也提高了,这导致了越来越精确的神经网络和更强的AlphaGo Zero版本时代的出现。

这个版本的AlphaGo zero比以前版本的AlphaGo更强大,因为它不再受到人类知识的限制。相反,它还可以从世界上最强的玩家:AlphaGo那里学习。

它也有不同于以前的版本在其他方面。

·             
AlphaGo Zero仅使用围棋棋盘上的黑白石头作为输入,而AlphaGo的以前版本包含少量手工设计。

·             
它使用一个神经网络而不是两个。AlphaGo的早期版本使用“策略网络”来选择下一手的落点以及一个“价值网络”来预测落在每个位置游戏的获胜的概率。这两个网络被完美的结合在AlphaGo Zero中,这使其能够进行更有效地进行训练和评估。

·             
AlphaGo Zero不使用其他围棋程序使用的快速随机游戏来预测玩家将子落在何处才能获胜。相反,它依靠其高质量的神经网络来评估位置。

所有这些差异都有助于提高系统的性能并使其更为通用。而且,算法的改变使得系统更加强大和高效。

经过短短三天的自我训练,AlphaGo Zero就打败了以前发布的AlphaGo版本经过40天的自我训练,AlphaGo
Zero变得更强大,超越称为“大师”的AlphaGo版本,AlphaGo大师版本是击败了世界上最好的围棋选手及世界排名第一的柯洁。

在数以百万计的AlphaGo和AlphaGo对战中,系统从零开始逐渐学习了围棋游戏,在短短几天的时间里积累了数千年的人类知识。同时,AlphaGo Zero还发现了新的知识,开发非常规的策略和创新了新举措,它超越了在与李世石和柯洁的比赛中所发挥的新技术。

这些创造力的瞬间使我们相信,人工智能将成为人类智慧,帮助我们与我们的使命,解决一些人类正面临着最重要的挑战。

虽然这些还在早期,但AlphaGo Zero是迈向这一目标的关键一步。如果可以将类似的技术应用于其他结构化问题,如蛋白质折叠,减少能源消耗或寻找革命性的新材料,这些突破将对社会产生积极的影响。

大卫·席尔瓦:AlphaGo项目首席研究员在接受采访时所说

AlphaGo Zero是世界上最强大的围棋程序,胜过以往所有的AlphaGo版本。尤其值得一提的是,它击败了曾经战胜世界围棋冠军李世石的AlphaGo版本,成绩为100比0。过去所有版本的AlphaGo都从利用人类数据训练开始,它们被告知人类高手在这地方怎么下,在另一个地方怎么下。AlphaGo Zero不使用任何人类数据,而是自我学习,完全从自我对弈中学习,凭借自我学习取得比通过人类数据学习更好的成绩是因为,首先AlphaGo的对手总是和它正好水平一致,所以它从非常基础的水平开始,从非常随机的招式开始。但是在学习的过程中每一步,它的对手或者可以叫陪练,都正好被校准为匹配其当前水平。一开始,这些对手非常弱,但是之后渐渐变得越来越强大,人们一般认为机器学习就是关于大数据和海量计算。
但是,我们从AlphaGo Zero中发现,算法比所谓计算和数据可用性更重要。事实上,我们在AlphaGo Zero上使用的计算比在过去AlphaGo版本上使用的少一个数量级,但是它的性能更强大,因为我们使用了更多原理和算法,我可以代表我们的团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期。它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的AlphaGo,成为世界上最强大的围棋程序。该全系统完全从零开始训练,从随机招式开始,建立于基本原理,来弄清怎样从零学围棋,AlphaGo Zero最重要的理念是它完全从零开始学习,它意味着它完全从一块白板开始,仅仅依靠自我对弈来学习,不依赖于任何人类知识,人类数据,人类案例,人类特征,或是人类的介入,。它完全通过基本原理去探索任何下围棋,从零学对于DeepMind的目标和雄心而言是非常重要的,

因为如果你可以实现从零学习,你就拥有了可以从围棋,移植到其他任何领域的媒介,你从所处的细分领域中解放出来,通过一个可以应用于在任何地方的普遍算法。对于我们来说打造AlphaGo不是为了出来击败人类, 而是为了探索研究科学的意义和让一个程序能够自我学习知识是什么?所以我们开始发现,AlphaGo Zero不仅仅是重新发现,人类偏好的模式和开口以及人类在角落用固定模式,它还会审视这些并进行更多的自主探索,最终放弃那些偏好来自主做出人类还不知道或无法实现的变化,所以我们可以说真正发生的是在非常短的时间内,AlphaGo Zero理解了人类数千年积累的对围棋的认知,它进行分析,开始审视这些知识,并自主探索出更多的东西,有时候它的选择实际上超越并带来的一些人类现阶段尚未发现的东西,产生出在很多方面富有创造力的,新奇的知识,对于AlphaGo Zero已经达到的水平,我们非常激动,最让我们激动的是看它能在现实世界里走多远,事实上我们已经看到一个程序可以在像围棋这样的,复杂并具有挑战性的领域中达到很高水平,这意味着我们能够开始着手为人类解决最困难的问题。

从零开始的训练

DeepMind发表的论文中写到,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世石的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4个TPU,而击败李世乭的AlphaGo使用了48个TPU。

译者认为:AlphaGo Zero这种完全不依赖于人类数据的创新是有其根本因素的,因为围棋的下法是有一定的规则的,只要是在规则之内AlphaGo Zero自己可以和自己模拟,进行创造新的下法。举例来说:一个学生学习了基础知识之后,可以利用这些基础知识解决一系列复杂的问题,但是这些复杂得多问题其实还是限制于这些基础知识不断组合上,一旦超出了基础知识的界限,那么学生就不会做题了。这就是当前版本的AlphaGo Zero的核心。但是,不得不承认的是,这种方式极大的释放了人工智能在围棋领域的创造性,人类可以从中获得更多。

AlphaGo Zero证明了纯强化学习的方法是可行的,注意这里的纯强化学习其实强化的是基础,这跟我们人类的思维是相通的。Deepmind团队也称,AlphaGo zero对结构化知识的领域更适用,其实与其说是结构化,不如说成是规则化。因为如果说结构化的话,那么文本翻译也属于结构化,但是这个领域没有标注化,它还是需要大量数据来支撑的。

论文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

关于这篇论文,可以直接从这个地址下载

DeepMind还放出AlphaGo Zero的80局棋谱,下载地址在此

文章原标题:《AlphaGo
Zero-learning-scratch》

作者:

译者:虎说八道,小学生一枚。审校:主题曲哥哥。

文章为简译,更为详细的内容,请查看原文

时间: 2025-01-01 13:11:21

AlphaGo Zero:从头开始学习的相关文章

从头开始学习Java

问题描述 我想从头开始学习Java,希望通过Java视频学习资料进行学习,请问有没有好的推荐 解决方案 解决方案二:corejava解决方案三:网上大把的JAVA学习视频解决方案四:楼主搜搜北京尚学堂解决方案五: 解决方案六:北京尚学堂马士兵老师的视屏...解决方案七:不错的想法,省下一笔培训费用,这网站系统的视频,你可以看看:http://java.itcast.cn/java/video.shtml?131204zy&csdn

从头开始学习FLASH 3D教程

教程 效果演示:(用鼠标直接拖拽下面的物体) 点击这里下载源文件 大家都知道三维的点都有3个坐标,但FLASH只是有二维的坐标,所以要在FLASH里实现"三维"的效果,就需要对点的坐标进行转化,简单的说,就是怎么把三维坐标转换成二维坐标.(其实,这并不是真正的三维,而是一种视觉欺骗,看上去像三维的就这么回事.所以上面三维带引号.) 一.三维坐标系转化成二维坐标系 (1).坐标的转换 flash中场景左上角为(0,0),而在数学中是场景中心为(0,0),怎样把它转成数学中的坐标系呢? 1

从头开始学习c语言

以前的时候学习C语言时候认为C语言不过是一个学习的工具,学习一些理论知识就达到目的了,谁会用这么傻的语言啊,连个界面也没有,不像vb一下子就做出一个窗体来,放上几个按钮就可以了 后来学习C++的时候,认为C++与C是一种完全不同的语言,两者基本没有什么兼容性,当时在学校里看书的时候,一直比较纳闷为会c++的书上会写C++/C语言教程,到了现在才明白,我去C++与C本来就是一体是一脉相承的语言, 自从写第一个C++写了三行出了五个错误当时就觉得就我的智商基本上告别与C++了 到了现在处理一些与AP

煮酒论AI,看看大牛怎么说

为了完美的总结2017年,更好的走向2018年,科技媒体KDnuggets向大数据,数据科学,人工智能和机器学习的一些顶尖专家询问了一些他们认为的2017年最重要的发展以及2018年发展趋势的意见. 本文全篇的全部都是围绕一个问题: "2017年,机器学习和人工智能最重要发展是什么?2018年有什么发展趋势?" 他们的回答大多和预测大多集中以下热点: 1.AlphaGo的成功. 2.深度学习的狂热. 3.自动驾驶汽车. 4.TensorFlow对神经网络技术商业化的推动. Xavier

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

AlphaGo的巨大成功掀起了围棋界三千年未有之大变局,也使得深度强化学习(Deep Reinforcement Learning)渐为大众熟悉.尤其是最新推出的AlphaGo Zero完全摒弃了人类知识,并且三天内碾压了早期版本的AlphaGo,更足显强化学习和深度学习结合的巨大威力.AlphaGo Zero的论文侧重于描述效果,对于方法的论述比较简短,没有相关背景的人读起来可能会有一些困难.本文对强化学习以及AlphaGo Zero算法做了详细描述. 摘要 AlphaGo Zero无需任何人

[译] 深度学习的未来

本文讲的是[译] 深度学习的未来, 原文地址:The future of deep learning 原文作者:Francois Chollet 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold-m- 译者:Changkun Ou 校对者:MoutainOne, sunshine940326 这篇文章改编自我的书 Deep Learning with Python(Manning 出版社)第 9 章第 3 节(译者注:「结论」一章最后一小节). 它是讨论当前深度学习

盘点丨DeepMind 2017年工作回顾:从AlphaGo Zero到Parallel WaveNet

引言 今年7月,世界排名第一的围棋选手柯洁在连胜20场比赛后发表讲话.这距离上次他在中国乌镇未来围棋峰会上与AlphaGo对弈已有两个月.他表示:" 在与AlphaGo比赛之后,我彻底反思并重新思考了这次比赛,现在我可以看到这样的反思对我有很大的帮助.我也希望所有的棋手能够去思考AlphaGo下棋的思想和技法,这些都是很有意义的.虽然是输了,但我发现围棋的变化确实太大了,它还在不停的进步,我也希望自己能不断的进步,在自己的顶峰时期多待几年." 图1,未来围棋峰会是一个为期5天的盛会,它

学习CSS教程:学习CSS网页布局

文章简介:你也许知道什么叫选择器,什么叫属性,什么叫数值,也许你对css布局略懂一二,但这还远远不够.如果你想着从头开始学习HTML和CSS的话,我建议你认真查看下 this tutorial. 否则,在工作的时候,你依然陷入迷惘的泥潭中苦苦挣扎. 这个篇文章介绍的是现在广泛使用于网站布局领域的CSS基础. 你也许知道什么叫选择器,什么叫属性,什么叫数值,也许你对css布局略懂一二,但这还远远不够.如果你想着从头开始学习HTML和CSS的话,我建议你认真查看下 this tutorial. 否则

学习数据分析的“里程碑”是什么?

数据分析是一项综合技术.它既包含hardcore的编程技术,也包含诸多分析逻辑的软知识. 对于数据科学家而言,Excel只是自己技能图表里很小的一部分.虽然数据科学家流派众多,成长路径也各异,很难用短短一篇文章概括成长过程中碰到的所有"里程碑".但是,依旧有一些东西是共通的.这篇文章就尝试归纳一些我心目中的数据科学"里程碑". 什么是里程碑? ①"里程碑"是一套知识体系中的重要环节,无论用哪个教程.如何展开学习,它总会是你必须面对的一关.有可能它