特邀 | 围棋人机大战一周年:如何让AlphaGo更快更轻盈

去年今日,AlphaGo 一举击败围棋世界冠军、韩国九段棋手李世乭,开创了人工智能的新纪元。一时间,人工智能成为贯穿全年的热门话题。

值此围棋人机大战一周年之际,我们特别邀请到卡耐基梅隆大学博士、北京大数医达科技有限公司 CEO—邓侃,为大家带来对 DeepMind 公司创始人 Demis Hassabis,以及大腕儿 Oriol Vinyals 的最新论文的读后感。

一周前,2017年3月6日,Google 旗下的 DeepMind 公司,发表了一篇题为《神经情景控制 Neural Episodic Control》的论文。

 

DeepMind 公司很出名,不仅因为 AlphaGo 是它的产品,而且因为 DeepMind 的员工发表了很多深度学习的论文,数量多,水平高。

 

《神经情景控制》很抢眼,因为作者中不仅有深度学习的大腕 Oriol Vinyals,而且还有 DeepMind 公司创始人 Demis Hassabis。

 

这篇论文的主题,是如何大幅度提高深度强化学习的计算效率。

 

提高计算效率是很重要的课题。譬如迎战李世乭时,AlphaGo 动用了 1920 颗 CPU、280 颗 GPU。如果能够大规模提高计算效率,那么就不需要动用如此暴力的硬件。

 

如何大规模提高计算效率?《神经情景控制》的思路并不新鲜,以占用庞大的硬盘空间为代价,来节省 CPU 运算时间。

 

—01—


以围棋为例,先定义两个概念

 

1.棋面 (State):

 

围棋棋盘上,总共有 19 x 19 =361 个落子位置。譬如目前已经下了 100 手,那么棋面上黑子和白子各有 50 粒,这些黑子和白子分别占据的位置,就是一种棋面。

 

据专家估计,棋面的数量,大约是 250 的 150 次方,250^150。

 

2. 赢面 (Action Value):

 

赢面是指当前棋局下,黑子(或白子)占据的优势。

 

开局或者中盘的赢面(优势)不太容易计算,因为只有到了终局以后,才能知道输赢几目。

 

但是终局前一步的赢面很容易计算,因为对手多半会把棋子落在最佳位置上。所谓最佳位置,就是赢的目数最大,或者输的目数最少的位置。

 

不过,也许对手一时糊涂,会出臭棋。所以,终局前一步的赢面,应该是终局时的输赢目数,乘以一个不确定系数。

 

终局前两步的赢面也很容易计算,因为自己也一定会把棋子落在最佳位置上,逼迫对方输的目数最多,或者赢的目数最小。

 

不过,也不能保证自己永远保持清醒。是人都会犯糊涂。所以,终局前两步的赢面,应该是终局时的输赢目数,先乘以对方的不确定系数,再乘以自己的不确定系数。为了方便计算,假设对方和自己,犯糊涂的概率都一样,那么终局前两步的赢面,等于终局时的输赢目数,乘以不确定系数的平方。

 

依次循环,从终局一路回溯到中盘,再一路回溯到开局,就可以估算所有棋面下的赢面了。

 

—02—

快速查找棋面的索引

 

理解了赢面的计算方法以后,就容易理解《神经情景控制》论文中提出的新方法了。

 

1.棋面-赢面查询表:

 

用一路回溯的办法,可以计算每一种棋面的赢面。但是一路回溯的计算量很大,不如预先设置361 个表,每个表对应一个落子位置。

 

每个表有若干行,每行有两列,第一列是棋面,第二列是赢面。

 

预先训练 AlphaGo 时,对于 361 种落子的位置,分别计算在各个棋面下,对应的赢面。

 

训练结束后,就可以找人对弈了。

 

面对某一个特定棋面时,AlphaGo 该落子在哪一个位置呢?只需要在 361 个表中,分别找到对应的棋面所在的行,取出相应的赢面的值。

 

这样总共获得 361 个落子位置的 361 个赢面的值。取其中赢面最大的那一个落子位置即可。

 

2.快速索引:

 

每一个表有多少行呢?从开局到终局,差不多有 250^150 种棋面,所以每个表差不多有 250^150 行。

 

如果一行一行地查找当前的棋面,计算量仍然非常大。

 

提高查找速度,办法有两个。

 

一个是建索引。通过索引,找到相似的棋面,然后再仔细查找确切的棋面。

 

另一个是近似。没必要严格查找每一种棋面下的确切赢面,不妨把相似棋面的赢面,取个均值。

 

《神经情景控制》这篇论文,用的是近似的办法。

 

不妨把棋面看成一张图片,用卷积神经网络(CNN)提取层层抽象棋面特征。CNN 的输出,是棋面特征的编码。

 

棋面特征的编码是一个数字向量,数字本身没有明确意义,但是相似棋局的数字向量很邻近。

 

在这篇论文的实验中,特征编码的数量是 5 * 10^5,远远小于 250^150。换而言之,250^150 种棋面,被 CNN 聚类成 5 * 10^5 种相似棋面。

 

3. 学习:

 

棋面与图片不同。轻微改变图片中的像素,图片的大致模样不会发生太大变化。但是轻微改变棋面中的黑白子的分布,赢面却大不相同。

 

所以,CNN 必须非常敏锐地识别棋面中的细微特征。

 

如何让 CNN 变得更敏锐?

 

在训练过程中,用一路回溯的办法,精算每个棋面的赢面。然后对比精算出来的赢面,与查询表中的近似赢面,两者之间的误差。

 

误差是错误的近似导致的,错误的近似是错误的 CNN 参数导致的。

 

逐步调整 CNN 参数,减少精算与近似之间的误差,从而让 CNN 学会更敏锐地识别棋面中的细微特征。

来源:paperweekly

原文链接

时间: 2024-10-26 18:26:33

特邀 | 围棋人机大战一周年:如何让AlphaGo更快更轻盈的相关文章

人机大战:李世石是否成为人工智能棋子

文章讲的是人机大战:李世石是否成为人工智能棋子,近两天站上热搜的不是撩妹技能满分的热血韩剧,也不是尔虞我诈的商界奇谈,而是一场看起来火药味十足,却找不到对手的人机大战. 对弈现场 经过三个多小时的鏖战,李世石执黑186手中盘负谷歌AlphaGo. 在本次开局阶段,双方开局就显得很特别.可能因为对手是机器人的原因,李世石开始的打法就选择了不常规的走法.在开局阶段,AlphaGo成功获得了比较大的优势.在中盘期间,李世石有所反击,逐渐有了比较大的赢面.但在后期的一个失误导致李世石全盘皆输. 我不关心

柯洁将在年内和“阿尔法狗”进行终极人机大战

新华社无锡6月4日体育专电(记者 王镜宇 王恒志)国家体育总局棋牌运动管理中心党委书记.国际围棋联盟事务总长杨俊安4日在这里透露,如果不出意外柯洁九段将在年内进行和"阿尔法狗"的围棋"终极人机大战". 在4日下午举行的第37届世界业余围棋锦标赛新闻发布会上,杨俊安透露了这一消息.据他介绍,中国围棋协会和"阿尔法狗"的团队就此事进行了接触和沟通,双方都有意向促成这项对抗.如果不出意外的话,这次比赛将安排在年内,但是具体时间和比赛地点等还"

北京邮电大学计算机与围棋研究所所长刘知青:AlphaGo与柯洁人机大战展望

5月18-20日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办.在20日上午的主会场中,北京邮电大学计算机与围棋研究所所长.教授刘知青分享了主题为"AlphaGo与柯洁人机大战展望"的精彩演讲. 北京邮电大学计算机与围棋研究所所长.教授 刘知青 刘知青在演讲中详细讲述了AlphaGo与李世石人机大战的前因后果,并进一步展望了AlphaGo与柯洁的人机大战场景.他讲到:"作为圈内的知情者来看,阿尔法狗的技术进展完全是基于早期的研究成果,当然

德州扑克人机大战,AI 有着压倒性优势,局势几乎不可逆转

在德州扑克人机大战中,四位职业牌手与 CMU 开发的人工智能系统 Libratus 进行了激烈对抗. Libratus是卡耐基梅隆大学的托马斯·桑德霍尔姆和诺姆·布朗(Noam Brown)开发的.他们以前开发的机器人 Claudico 在 2015 年的德州扑克比赛中没能击败职业牌手. 此前雷锋网(公众号:雷锋网)也曾报道过,"一对一无限注德州扑克"就是两个人玩的赌博游戏,因为事先会给每位玩家分发 2 张底牌,所以对方"底牌信息"你是不知道的,对于计算机来说,就是

Master 真实身份终于揭晓,随后百度高调展开一场人机大战丨AI科技评论周刊

雷锋网按:本周 AI 圈的大新闻不断,最引人关注的无疑是 Master 终于公布其真实身份,最终果然是人们猜测已久的 AlphaGo.在 Master 公布其身份不久后,江苏卫视马上播出了百度大脑对战最强大脑王峰的节目,小度以 3:2 的成绩战胜王峰. Master 真实身份终于揭晓 本周神秘的 Master 终于宣布自己就是就是 AlphaGo,而代为执子的就是 AlphaGo 团队的黄士杰博士! 雷锋网了解到,从 2016 年 12 月 29 日晚起,一个注册为"Master".标

5分钟看懂│从深蓝到阿尔法狗,人机大战20年进化了什么?

2:0! 这是今天AlphaGo在与李世石的对弈中交上的答卷   俄罗斯国际象棋世界冠军弗拉基米尔·克拉姆尼曾说过:"相信我,败给电脑的痛苦感觉,相当于败给同行的两倍."笔者不想求李世石现在的心理阴影面积,因为笔者很认同谷歌董事长施密特在赛前说过的一句话,"输赢都是人类的胜利!因为正是人类的努力才让人工智能有了现在的突破." 虽然2:0的结果会让很多期待李世石扳回一城的人黯然神伤,更有可能会让"机器人威胁论"再次甚嚣尘上.但是作为刚刚加入人机大战

柯洁:这是我最后一次人机大战 且看且珍惜

今天(5月23日)开始直到5月27日,中国乌镇围棋峰会将正式拉开大幕,此次大会最受人关注的还是预热很久的柯洁与AlphaGo 2.0之间的"人机大战".按照大会安排,柯洁与AlphaGo之间的首场比赛将于今日10:30-17:30进行. 目前媒体以及围棋圈内人士都对此次比赛给出了各种预测.而对于这次的人机大战,柯洁也有自己的一些看法.柯洁在昨日深夜发布微博长文称,"无论输赢,这都将是我与人工智能最后的三盘对局." 至于原因,柯洁认为虽然如今的人工智能已经足够强大,并

"人机大战"只是娱乐,数据分析才是根本

文章讲的是"人机大战"只是娱乐,数据分析才是根本,继2016年阿尔法狗大战世界围棋冠军李世石一战成名之后,今年号称中国当代"棋圣"的聂卫平与阿尔法狗的升级版Master对战,结果还是一败涂地.真人战败机器的原因不是人类智力的退化,而是缺乏对海量数据的深度学习和分析.在当今商业社会,数据已经成为企业一种重要的战略资源,引领着数字化和信息驱动型经济的快速发展. 根据IDC报告,2019年全球大数据分析市场的营收有望达到1,870亿美元.同时,研究还显示,企业利用数据驱动

深度解密:人机大战——网红脸识别

雷锋网按:本文作者为Slyvia,ARC增强现实(微信ID:arinchina)文章详细的分析了1)机器和人类在人脸识别方面的不同点:2)人机大战结果的原因分析. 继「围棋」人机大战--以李世石为代表的人类,输给了阿尔法狗代表的计算机后,人类又发起了「人脸识别」之人机大战.这一次是诞生于杭州的人脸识别机器人蚂可,对战「鬼才之眼」王昱珩. 王昱珩是谁? 15 年「最强大脑」中,在同质同量同源的 520 杯水中,他成功指出评审选中的那杯,并精准说出水杯旋转了 15 度,中间经人手,从此,「水哥」一战