One-Page AlphaGo --十分钟看懂 AlphaGo 的核心算法!

下文概括了围棋借助人工智能在 2016 年实现的突破。

围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中 b≈35,d≈80;而在围棋中 b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路算法(heuristics)是行不通的。但有效的方法是存在的:

  • 从策略(policy) P(a|s) 中取样 action,降低搜索广度
  • 通过位置评估降低搜索深度
  • 把策略和值用蒙特卡洛树搜索(MCTS)结合起来。

通常的步骤是:

  • 用一个 13 层的 CNN,直接从人类棋步中训练一个监督学习策略网络 Pσ。输入为 48 x 19 x 19 的图像(比方说,它的组成棋子颜色 是 3 x 19 x 19),输出是使用 softmax 层预测的全部落子的概率。精确度是 55.7%。
  • 训练一个能在运行时快速取样 action 的快速策略 Pπ。这会用一个基于小型模式特征的线性 softmax。精确度是 24.2%,但它计算一次落子只用 2 微秒,而不像 Pσ 需要 3 毫秒。
  • 训练一个增强学习策略网络 Pρ ,通过优化博弈结果来进一步提升监督策略网络。这把策略网络向赢棋优化,而不是优化预测精确度。本质上,Pρ 与 Pσ 的结构是一样的。它们的权重使用相同值 ρ=σ 初始化。对弈的两个选手,是当前策略网络 Pρ 和随机(防止过拟合)选择的此前的策略网络迭代。
  • 训练一个价值网络(value network)Vθ,来预测强化学习策略网络自己和自己下棋的赢家。该网络的架构和策略网络类似,但多出一个特征平面(当前玩家的颜色),并且输出变成了单一预测(回归,均方差损失)。根据完整棋局来预测对弈结果,很容易导致过拟合。这是由于连续落子位置之间高度相关,只有一子之差。因此,这里使用了强化学习策略网络自己与自己对弈新生成的数据。该数据从包含 3000 万个不同位置的独立棋局中抽取。
  • 把策略网络、价值网络、快速策略和蒙特卡洛树搜索结合起来。一个标准的蒙特卡洛树搜索过程包含四步:选择、扩展、评估、备份。为了让大家更容易理解,我们只粗略讲了讲它如何在模拟中选择状态的部分(如对数学感兴趣,请到原始论文中找公式)。

状态分数=价值网络输出+快速运行(fast rollout)的策略结果+监督学习策略网络输出

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的 action 概率,充作选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络只被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的 AlphaGo 算法!

====================================分割线================================

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-12 22:31:52

One-Page AlphaGo --十分钟看懂 AlphaGo 的核心算法!的相关文章

十分钟看懂时序数据库II——预处理

物联网领域近期如火如荼,互联网和传统公司争相布局物联网.作为物联网领域数据存储的首选,时序数据库也越来越多进入人们的视野.早在2016年7月,百度云在其天工物联网平台上发布了国内首个多租户的分布式时序数据库产品TSDB. 前文(<十分钟看懂时序数据库II--存储>)提到时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一.如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战. 本文会从时序数据库的查询

十分钟看懂图像语义分割技术

大多数人接触 "语义" 都是在和文字相关的领域,或语音识别,期望机器能够识别你发出去的消息或简短的语音,然后给予你适当的反馈和回复.嗯,看到这里你应该已经猜到了,图像领域也是存在 "语义" 的. 今天是 AI 大热年,很多人都关注与机器人的语音交互,可是有没有想过,将来的机器人如果不能通过图像来识别主人,家里的物品.宠物,那该多没意思.说近一些,假如扫地机器人能够机智地绕开你丢在地上的臭袜子而扫走旁边的纸屑,一定能为你的生活解决不少麻烦. 没错,图像语义分割是 AI

三分钟看懂阿里云在成都发布哪些产品?

本文讲的是三分钟看懂阿里云在成都发布哪些产品?[IT168 现场报道]3天,150多个国家,20多台万终端设备,一场突如其来的WannaCry蠕虫勒索病毒,让全世界意识到了网络世界的风险以及安全技术的重要性.5月23日,在云栖大会·成都峰会上,阿里云再次传递了基于数据智能的理念和安全技术,也发布了帮助初创企业解决"安全"的问题"产业安全扶助计划"--为100家创业公司提供免费安全防护. 同时,阿里云也推出了多项新技术.新产品,包括支持12层4K画质非编的云端文件存储

一分钟看懂测力传感器暗转使用技巧和注意事项

一分钟看懂测力传感器暗转使用技巧和注意事项!测力传感器在我们的生活中使用的非常广泛,尤其是在我们的工业中最常见,目前,测力传感器生产厂家也越来越多,那么,我们如何去选择测力传感器的国内生产厂家?. 我们知道,精准度对于测力传感器来说非常的重要,所以在工作使用过程中,保证传感器的精准度便成为了保养的第一要务.需要在日常养护上多下功夫,从最基础开始,努力做好每一个保养步骤.那么,要想保证传感器的顺利运行,都需要有哪些窍门技巧呢?在安装时特别要加强哪方面的注意呢? 首先来讲,在使用测力传感器时,需要对

深入浅出看懂AlphaGo Zero - PaperWeekly 第51期

AlphaGo Zero = 启发式搜索 + 强化学习 + 深度神经网络,你中有我,我中有你,互相对抗,不断自我进化.使用深度神经网络的训练作为策略改善,蒙特卡洛搜索树作为策略评价的强化学习算法. 1. 论文正文内容详细解析 先上干货论文:Mastering the Game of Go without Human Knowledge [1],之后会主要以翻译论文为主,在语言上尽量易懂,避免翻译腔. AlphaGo Zero,从本质上来说完全不同于打败樊麾和李世石的版本. 算法上,自对弈强化学习

十分钟搞懂什么是CGI(转)

原文:CGI Made Really Easy,在翻译的过程中,我增加了一些我在学习过程中找到的更合适的资料,和自己的一些理解.不能算是严格的翻译文章,应该算是我的看这篇文章的过程的随笔吧. CGI真的很简单 在此之前,你或许听说过很多说CGI'晦涩难懂'的言论.如果你会写最基本的输入输出,那么你就可以写出一个CGI脚本.如果你已经是一个程序员,你只需要几分整就可以明白CGI到底是个什么东西.如果你还不是一个名程序员,对不起这篇文章不是很适合你,你可以先去学习一些编程的知识,例如脚本语言或者sh

三分钟看懂十年云计算

我们总在关注从0到1的创新,其实从1到N的创新也同等重要,这是同一趋势下的两次洗牌.在云计算10周年之际,我想谈的正是云计算已经完成了从0到1的小时代,即将迎来从1到N的大时代,以及如何在新一轮洗牌中致胜的思考. 2006年,谷歌第一次提出了"云计算"的概念.10年来,我们解决了云计算"有和无"的问题,现在将要解决的是云计算"有和优"的问题.换句话说,在云计算诞生10年之际,它完成了从0到1的小时代,即将迎来从1到N的大时代,两者都将引发新一轮的

三分钟看懂十年云计算:接下来的十年将是云的十年!

与小时代强者争高低,而以大时代场景化差异夺市场. 我们总在关注从0到1的创新,其实从1到N的创新也同等重要,这是同一趋势下的两次洗牌.在云计算10周年之际,我想谈的正是云计算已经完成了从0到1的小时代,即将迎来从1到N的大时代,以及如何在新一轮洗牌中致胜的思考. 2006年,谷歌第一次提出了"云计算"的概念.10年来,我们解决了云计算"有和无"的问题,现在将要解决的是云计算"有和优"的问题.换句话说,在云计算诞生10年之际,它完成了从0到1的小时

5分钟看懂│从深蓝到阿尔法狗,人机大战20年进化了什么?

2:0! 这是今天AlphaGo在与李世石的对弈中交上的答卷   俄罗斯国际象棋世界冠军弗拉基米尔·克拉姆尼曾说过:"相信我,败给电脑的痛苦感觉,相当于败给同行的两倍."笔者不想求李世石现在的心理阴影面积,因为笔者很认同谷歌董事长施密特在赛前说过的一句话,"输赢都是人类的胜利!因为正是人类的努力才让人工智能有了现在的突破." 虽然2:0的结果会让很多期待李世石扳回一城的人黯然神伤,更有可能会让"机器人威胁论"再次甚嚣尘上.但是作为刚刚加入人机大战