图解Alphago原理

电脑是下围棋要做些什么

如何决定下一步是最优的,最原始的方法是这样的…

然后,悲剧了,搜索空间如宇宙星空

OK,来看看Alphago怎么搞的

关键是降低搜索广度与深度

假如....

又假如...

那Alphago是怎么搞的?构建两种专家模型:落子预测器 +棋盘价值评估器

两个专家模型使用深度学习技术,论文上称政策网络(policy network)+价值网络(value network)

最后看看如何Alphago下棋吧,Alphago打的是组合拳:蒙特卡洛搜索树+政策网络+价值网络共同作用:

  • Case 1: 落子选择器

  • Case 2: 落子选择器 + 蒙特卡洛树搜索(推演到最后结果)

  • Case 3: 落子选择器 + 蒙特卡洛树搜索(局部窗口) + 棋局价值评估器

Alphago相关有用的资料汇总

  1. 围棋简单入门视频教程:http://sports.letv.com/video/24863582.html
  2. 一张图解AlphaGo原理及弱点 by 郑宇,张钧波 CKDD:http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
  3. 知乎的Alphago讨论:http://www.zhihu.com/question/39906815
  4. DeepMind强化学习课程(很棒):http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
  5. David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用,包含JAVA和Python的代码:http://mcts.ai/about/index.html
  6. github上别人用theano实现的Alphago:https://github.com/Rochester-NRT/AlphaGo
时间: 2024-11-16 21:32:53

图解Alphago原理的相关文章

(转) 一张图解AlphaGo原理及弱点

一张图解AlphaGo原理及弱点 2016-03-23 郑宇,张钧波 CKDD 作者简介: 郑宇,博士, Editor-in-Chief of ACM Transactions on Intelligent Systems and Technology, ACM数据挖掘中国分会秘书长.   张钧波,博士,ACM数据挖掘中国分会会员,从事深度神经网络相关研究.   --------------------------------------     近期AlphaGo在人机围棋比赛中连胜李世石3局

【JAVA秒会技术之秒懂HTTPS】白话图解HTTPS原理

白话图解HTTPS原理         [前言]最近看过几篇文章,内容是关于"全民HTTPS"的.为什么HTTPS,突然会受到如此多业内人士的青睐呢?HTTPS究竟是什么呢?它与HTTP又有怎样的区别呢?     带着这个问题,我查看了很多网上的资料,但是太多的专业词汇,让我感到头疼,很难理解.按我个人的认知,这个世界上根本不存在任何高深的道理,尤其是西方讲究科学性的思维,再高深,也不可能高深过中国传统思想中的八个字"只可意会,不可言传",完全不该诉你,让你自己去领

图解mapreduce原理和执行过程

说明: &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   下面的图来自南京大学计算机系黄宜华老师开设的mapreduce课程的课件,这里稍作整理和 总结. 本文旨在对接触了mapreduce之后,但是对mapreduce的工作流程仍不是很清楚的人员,当然包括博主自己,希望与大家一起学习. mapreduce的原理 MapReduce借鉴了函数式程序设计语言Lisp中的思想,Lisp(List processin

阿里技术协会(ATA)11月系列精选文集

JAVA核心技术 1.面向GC的Java编程 2.JVM飙高排查脚本-结构分析 3.理解Java NIO 4.杜绝假死,Tomcat容器做到自我保护,设置最大连接数 5.Groovy与Java集成常见的坑 6.java 深拷贝探讨 分布式计算 1.jstorm 介绍 2.Spark的调度策略详解 3.生活中的Paxos,原来你我都在使用--对Paxos生活化的解读(一) 4.生活中的Paxos,原来你我都在使用--对Paxos生活化的解读(二) 5.消息中间件MetaQ高性能原因分析 大数据 1

Compass 更智能的搜索引擎(1)--入门

学完了前面的Lucene系列教程: 全文检索 Lucene(1)–入门 全文检索 Lucene(2)–进阶 全文检索 Lucene(3)–分页 全文检索 Lucene(4)–高亮 Lucene确实是个好东西,适用性也很强.但是需要对待索引的数据手动的封装,每次都需要从底层开始一点点的设计.对于一个工作量很大的项目而言,简直就是噩梦.所以,我们对于Lucene,了解其工作原理就行了.实际中开发靠得住的还是易用性强的框架.这同时也给我们这些开发人员提了个醒不是?易用.下面就来分享一个更好用的全文搜索

图解NodeJS【基于事件、回调的单线程高性能服务器】原理

刚开始了解Node感觉很吊,各种说高性能,可是一直不理解为什么单线程会比多线程快?为什么异步IO比非阻塞IO快?因此,本篇在阅读相关书籍后,根据自己的理解,整理此文,如有错误,仅代表理论不精,必当修改,以免误导他人.还请多多指正..... 关于阻塞IO和非阻塞IO 系统内核只有两种IO模式-- 阻塞IO和非阻塞IO.这里的IO可不仅仅是读取文件内容,而是更为广泛的概念.比如Socket啊,网络Socket,磁盘读取等等,这些相比于CPU计算都是很耗时的. 下图为阻塞IO的工作模式: 阻塞IO在需

肖玉强:图解搜索引擎工作原理

  做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的.前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂.后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示"懂了". 我们先来看搜索引擎的主要工作:页面收录.页面分析.页面排序及关键字查询.搜索引擎的工作流程是:页面收录--页面分析--页面排序--关键字查询. 一.搜索引擎工作原理--页面收录   搜索引擎工作原理示意图--页面收录流程 页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源

字符串模式匹配之KMP算法图解与 next 数组原理和实现方案

之前说到,朴素的匹配,每趟比较,都要回溯主串的指针,费事.则 KMP 就是对朴素匹配的一种改进.正好复习一下.   KMP 算法其改进思想在于: 每当一趟匹配过程中出现字符比较不相等时,不需要回溯主串的 i指针,而是利用已经得到的"部分匹配"的结果将模式子串向右"滑动"尽可能远的一段距离后,继续进行比较.如果 ok,那么主串的指示指针不回溯!算法的时间复杂度只和子串有关!很好. KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目

《Linux内核设计的艺术:图解Linux操作系统架构设计与实现原理》——1.2 加载操作系统内核程序并为保护模式做准备

1.2 加载操作系统内核程序并为保护模式做准备 从现在开始,就要执行真正的boot操作了,即把软盘中的操作系统程序加载至内存.对于Linux 0.11操作系统而言,计算机将分三批逐次加载操作系统的内核代码.第一批由BIOS中断int 0x19把第一扇区bootsect的内容加载到内存:第二批.第三批在bootsect的指挥下,分别把其后的4个扇区和随后的240个扇区的内容加载至内存.1.2.1 加载第一部分内核代码--引导程序(bootsect) 按照我们使用计算机的经验,如果在开机的时候马上按