图解Alphago原理

电脑是下围棋要做些什么

如何决定下一步是最优的，最原始的方法是这样的…

然后，悲剧了，搜索空间如宇宙星空

OK，来看看Alphago怎么搞的

关键是降低搜索广度与深度

假如....

又假如...

那Alphago是怎么搞的？构建两种专家模型：落子预测器＋棋盘价值评估器

两个专家模型使用深度学习技术，论文上称政策网络（policy network）＋价值网络（value network）

最后看看如何Alphago下棋吧，Alphago打的是组合拳：蒙特卡洛搜索树＋政策网络＋价值网络共同作用：

Case 1: 落子选择器
Case 2: 落子选择器＋蒙特卡洛树搜索（推演到最后结果）
Case 3: 落子选择器＋蒙特卡洛树搜索（局部窗口）＋棋局价值评估器

Alphago相关有用的资料汇总

围棋简单入门视频教程：http://sports.letv.com/video/24863582.html
一张图解AlphaGo原理及弱点 by 郑宇，张钧波 CKDD：http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
知乎的Alphago讨论：http://www.zhihu.com/question/39906815
DeepMind强化学习课程（很棒）：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用，包含JAVA和Python的代码：http://mcts.ai/about/index.html
github上别人用theano实现的Alphago：https://github.com/Rochester-NRT/AlphaGo

时间： 2024-11-16 21:32:53

图解Alphago原理的相关文章

(转) 一张图解AlphaGo原理及弱点

一张图解AlphaGo原理及弱点 2016-03-23 郑宇,张钧波 CKDD 作者简介: 郑宇,博士, Editor-in-Chief of ACM Transactions on Intelligent Systems and Technology, ACM数据挖掘中国分会秘书长. 张钧波,博士,ACM数据挖掘中国分会会员,从事深度神经网络相关研究. -------------------------------------- 近期AlphaGo在人机围棋比赛中连胜李世石3局

【JAVA秒会技术之秒懂HTTPS】白话图解HTTPS原理

白话图解HTTPS原理 [前言]最近看过几篇文章,内容是关于"全民HTTPS"的.为什么HTTPS,突然会受到如此多业内人士的青睐呢?HTTPS究竟是什么呢?它与HTTP又有怎样的区别呢? 带着这个问题,我查看了很多网上的资料,但是太多的专业词汇,让我感到头疼,很难理解.按我个人的认知,这个世界上根本不存在任何高深的道理,尤其是西方讲究科学性的思维,再高深,也不可能高深过中国传统思想中的八个字"只可意会,不可言传",完全不该诉你,让你自己去领

图解mapreduce原理和执行过程

说明: &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 下面的图来自南京大学计算机系黄宜华老师开设的mapreduce课程的课件,这里稍作整理和总结. 本文旨在对接触了mapreduce之后,但是对mapreduce的工作流程仍不是很清楚的人员,当然包括博主自己,希望与大家一起学习. mapreduce的原理 MapReduce借鉴了函数式程序设计语言Lisp中的思想,Lisp(List processin

阿里技术协会(ATA)11月系列精选文集

JAVA核心技术 1.面向GC的Java编程 2.JVM飙高排查脚本-结构分析 3.理解Java NIO 4.杜绝假死,Tomcat容器做到自我保护,设置最大连接数 5.Groovy与Java集成常见的坑 6.java 深拷贝探讨分布式计算 1.jstorm 介绍 2.Spark的调度策略详解 3.生活中的Paxos,原来你我都在使用--对Paxos生活化的解读(一) 4.生活中的Paxos,原来你我都在使用--对Paxos生活化的解读(二) 5.消息中间件MetaQ高性能原因分析大数据 1

Compass 更智能的搜索引擎（1）--入门

学完了前面的Lucene系列教程: 全文检索 Lucene(1)–入门全文检索 Lucene(2)–进阶全文检索 Lucene(3)–分页全文检索 Lucene(4)–高亮 Lucene确实是个好东西,适用性也很强.但是需要对待索引的数据手动的封装,每次都需要从底层开始一点点的设计.对于一个工作量很大的项目而言,简直就是噩梦.所以,我们对于Lucene,了解其工作原理就行了.实际中开发靠得住的还是易用性强的框架.这同时也给我们这些开发人员提了个醒不是?易用.下面就来分享一个更好用的全文搜索

图解NodeJS【基于事件、回调的单线程高性能服务器】原理

刚开始了解Node感觉很吊,各种说高性能,可是一直不理解为什么单线程会比多线程快?为什么异步IO比非阻塞IO快?因此,本篇在阅读相关书籍后,根据自己的理解,整理此文,如有错误,仅代表理论不精,必当修改,以免误导他人.还请多多指正..... 关于阻塞IO和非阻塞IO 系统内核只有两种IO模式-- 阻塞IO和非阻塞IO.这里的IO可不仅仅是读取文件内容,而是更为广泛的概念.比如Socket啊,网络Socket,磁盘读取等等,这些相比于CPU计算都是很耗时的. 下图为阻塞IO的工作模式: 阻塞IO在需

肖玉强：图解搜索引擎工作原理

做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的.前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂.后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示"懂了". 我们先来看搜索引擎的主要工作:页面收录.页面分析.页面排序及关键字查询.搜索引擎的工作流程是:页面收录--页面分析--页面排序--关键字查询. 一.搜索引擎工作原理--页面收录搜索引擎工作原理示意图--页面收录流程页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源

字符串模式匹配之KMP算法图解与 next 数组原理和实现方案

之前说到,朴素的匹配,每趟比较,都要回溯主串的指针,费事.则 KMP 就是对朴素匹配的一种改进.正好复习一下. KMP 算法其改进思想在于: 每当一趟匹配过程中出现字符比较不相等时,不需要回溯主串的 i指针,而是利用已经得到的"部分匹配"的结果将模式子串向右"滑动"尽可能远的一段距离后,继续进行比较.如果 ok,那么主串的指示指针不回溯!算法的时间复杂度只和子串有关!很好. KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目

《Linux内核设计的艺术：图解Linux操作系统架构设计与实现原理》——1.2　加载操作系统内核程序并为保护模式做准备

1.2 加载操作系统内核程序并为保护模式做准备从现在开始,就要执行真正的boot操作了,即把软盘中的操作系统程序加载至内存.对于Linux 0.11操作系统而言,计算机将分三批逐次加载操作系统的内核代码.第一批由BIOS中断int 0x19把第一扇区bootsect的内容加载到内存:第二批.第三批在bootsect的指挥下,分别把其后的4个扇区和随后的240个扇区的内容加载至内存.1.2.1 加载第一部分内核代码--引导程序(bootsect) 按照我们使用计算机的经验,如果在开机的时候马上按