电脑是下围棋要做些什么
如何决定下一步是最优的,最原始的方法是这样的…
然后,悲剧了,搜索空间如宇宙星空
OK,来看看Alphago怎么搞的
关键是降低搜索广度与深度
假如....
又假如...
那Alphago是怎么搞的?构建两种专家模型:落子预测器 +棋盘价值评估器
两个专家模型使用深度学习技术,论文上称政策网络(policy network)+价值网络(value network)
最后看看如何Alphago下棋吧,Alphago打的是组合拳:蒙特卡洛搜索树+政策网络+价值网络共同作用:
- Case 1: 落子选择器
- Case 2: 落子选择器 + 蒙特卡洛树搜索(推演到最后结果)
- Case 3: 落子选择器 + 蒙特卡洛树搜索(局部窗口) + 棋局价值评估器
Alphago相关有用的资料汇总
- 围棋简单入门视频教程:http://sports.letv.com/video/24863582.html
- 一张图解AlphaGo原理及弱点 by 郑宇,张钧波 CKDD:http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
- 知乎的Alphago讨论:http://www.zhihu.com/question/39906815
- DeepMind强化学习课程(很棒):http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
- David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用,包含JAVA和Python的代码:http://mcts.ai/about/index.html
- github上别人用theano实现的Alphago:https://github.com/Rochester-NRT/AlphaGo
时间: 2024-11-16 21:32:53