深度学习之Google Deepmind的alphago人工智能算法技术演变历程

 

一、简介

 

有些人会有如下质疑“alphago都用了蒙特卡洛搜索树了,这变成了一部分搜索问题了并不是人工智能算法了或者说不够智能了”,但我的拙见是人在思考问题的时候除了直觉、经验判断、逻辑推理之外也会去枚举、搜索,所以我觉得算法包含一部分搜索并不能直接说该算法这不够智能或者这不是智能算法了,我觉得更多的是要考虑该算法在该类问题上如何去刻画出人类的直觉、经验判断、逻辑推理等。

 

最近大家比较关心的围棋人机大战(alphago vs 李世石)中,deep
mind基于Nature2016文章的alphago在5局制的比赛中已经取得了4-1的获胜。2016年google与facebook两个大拿在围棋领域基于深度学习都发表了文章,其中facebook文章如下:《BETTER
COMPUTER GO PLAYER WITH NEURAL NET- WORKAND LONG-TERM PREDICTION》 ;Google文章如下:《Mastering
the game of Go with deep neural networks and tree search》。这两篇文章都是蒙特卡洛搜索树+DCNN,效果google的alphago优于facebook的方法,刚好借此机会将之前看到的deep
mind该领域的文章捋了一下。

 

google在alphago之前就已经发表了相当多这方面的demo与文章,从其最早的NIPS2013文章《Playing
Atari with Deep ReinforcementLearning》到现在的Nature2016 《Mastering
the game of Go with Deep Neural Networks & Tree Search》。deep
mind在此期间做了很多扎实的研究工作,本文将进行简单的描述。本文接下去会按如下几点内容进行叙述:

1.Q-learning

2.
Reinforcement learning

3.
deep Q-Networks

4.
alphago

 

二、Q-learning与Reinforcement learning 

 

增强学习Reinforcement learning的场景大部分有一个共同的特点,那就是这些场景有序列决策或者控制的问题,对于当前的任何一个state不能明确的对不同的action给出一个事先well
defined的score值。它大多应用于如下的领域:机器人控制,市场决策,工业控制等。

 

Q-learning是用于解决Reinforcement
learning问题的一种常见方法,其经典的公式如下:

 

 

三、deep Q-Networks(DQN)

 

2013发表NIPS文章《Playing
Atari with Deep ReinforcementLearning》是deep mind公开的最早使用raw
pixels作为输入的,用于解决reinforcement learning的深度学习网络DQN。在该文章中,作者在atari一系列的游戏上做了各种算法的比较,如下图所示:

 

 

在总共7个游戏中,有6个做到了算法中最好,其中还有3个做到了比人类专家还要好。该文章中提到的DQN有两个特点:1.
用来更新参数的minibatch是是从replay
memory(回放记忆)中采样出来的,而不是仅仅的用当前一个片段或者session,这样能使得模型收敛性更好,否则会很容易训飞。2.
value函数是一个多层网络。

 

在上述文章提出后,deep mind在该问题上不停的打磨,不断的优化其工程与算法:

1.
2015发表ICML文章《MassivelyParallel
Methods for Deep Reinforcement Learning》,该文章从工程上了做了4个方面的分布式:学习、决策、价值、经验,第1个属于学习,第2、3个属于网络方面,第4个偏存储方面。DQN的全面分布式将DQN的学习时间成本与模型效果都提升了一个档次。DQN分布式结构简要如下:

 

2.
2016发表ICLR文章《PRIORITIZEDEXPERIENCE
REPLAY》,该文章指出了原DQN中经验均匀采样的问题,并从防过拟合、防局部最优这些点上,设计了介于均匀采样与纯优先级贪心之间的经验采样方法,提出的这个改进再次将DQN的模型效果提升了一个档次。

3.
2016发表ICLR文章《PolicyDistillation》,该篇文章实际上是做了DQN的transfer
learning的实验,有很多思想与hinton的dark knowledge里面的东西都很相似,其方法示意图如下所示:

 

 

四、alphago

 

训练阶段:

 

alphago训练如下图a中展示了alphago相应的4个neural
network,b中主要展示了policy network与value
network及其输出形式。 

          

 

 

1.
policy network(14层,输出棋盘每步move概率值),它首先采用supervisedlearning训练方法在KGS数据集上达到了55.7%的专家moves预测准确率,然后由reinforcement
learning训练方法进行自我训练(每一次训练都在前几次迭代完的模型中随机一个模型做决策),自我训练的policy network在80%的情况下打败了supervised
learning训练出来的policy network。

2.
value network(15层,预测棋盘下一步move),该网络由pair训练数据做regressionloss反馈更新得到。在KGS的数据集上,该训练方法出现了过拟合的现象(训练MSE0.19,测试MSE0.37),但若在reinforcement
learning学出来的policy network基础上产生出的自我训练集里进行采样学习的话,就可以有效的避免该问题(训练MSE0.226,测试MSE0.234)。

预测阶段:

 

在alphago系统模拟的时候,每一个action由如下三个因素决定:s状态下a的访问次数,RL
policy network for action value,SL policy networkfor prior
probability;在alphago系统模拟的时候,每一个叶子节点价值由如下两个因素决定:value network,rollout
network;在alphago系统所有模拟都结束后,由上述两点计算得到s状态下a的value值。综上RL与SL学习出来的两个policy
network共同决定了蒙特卡洛搜索树节点的选择,value network与rollout
network决定了模拟出来的叶子节点的价值,最终s状态下a的value由上述两部分以及所有模拟中s状态下a的访问次数共同影响得到。最后alphago系统选择s状态下最优的action作为围棋当前的move。

本文作者:阿里-记忆

关注了解更多人工智能干货:

时间: 2024-12-03 23:28:03

深度学习之Google Deepmind的alphago人工智能算法技术演变历程的相关文章

继 OpenAI 之后,DeepMind 开源深度学习训练平台 DeepMind Lab

编者按:今年四月,由马斯克和知名风投专家 Peter Thiel.Y Combinator 创始人 Sam Altman 共同创立的 AI 研究组织对外开放了其 AI 训练平台 OpenAI Gym.近日,该组织宣布还将开源测试和训练 AI 通用能力的平台 Universe,届时 Universe 将提供 1000 多种不同的游戏和训练测试环境.今天,据彭博社消息,谷歌 DeepMind 实验室也将向大众及其他开发者开放其用于众多实验的迷宫类游戏平台. DeepMind 宣布,将把这一 AI 训

人工智能在深度学习领域的前世今生

雷锋网(公众号:雷锋网)按:本文作者兰彻, 文章详细介绍了1)人工智能发展的七个重要阶段:2)深度学习在人工智能的发展:3)最后也提出作者对于深度学习挑战和未来发展的看法. 这两年人工智能热闹非凡,不仅科技巨头发力AI取得技术与产品的突破,还有众多初创企业获得风险资本的青睐,几乎每周都可以看到相关领域初创公司获得投资的报道,而最近的一次春雷毫无疑问是Google旗下Deepmind开发的人工智能AlphaGo与南韩李世石的围棋之战,AiphaGo大比分的获胜让人们对AI刮目相看的同时也引发了对A

一篇文章搞懂人工智能、机器学习和深度学习之间的区别

概述 2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源.这两年在不管在国内还是在国外,人工智能.机器学习仿佛一夜之前传遍大街小巷.机器学习作为人工智能的一种类型,可以让软件根据大量的数据来对未来的情况进行阐述或预判.如今,领先的科技巨头无不在机器学习下予以极大投入.Facebook.苹果.微软,甚至国内的百度,Google 自然也在其中. 去年早些时候 Google DeepMind 的 AlphaGo 项目在举世瞩目的围棋比赛中一举击败了韩国选手李世石,媒体就是

人工智能、机器学习、深度学习的区别在哪?

有人说,人工智能(Artificial Intelligence)是未来.人工智能是科幻小说.人工智能已经是我们日常生活的一部分.所有这些陈述都 ok,这主要取决于你所设想的人工智能是哪一类. 例如,今年早些时候,Google DeepMind 的 Alphago 程序击败了韩国围棋大师李世乭九段.人工智能.机器学习和深度学习这些词成为媒体热词,用来描述 DeepMind 是如何获得成功的.尽管三者都是 AlphaGo 击败李世乭的因素,但它们不是同一概念. 区别三者最简单的方法:想象同心圆,人

2016深度学习统治人工智能?深度学习十大框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面.新智元在 2015 年底发过一篇文章<深度学习会让机器学习工程师失业吗?>,引起很大的反响.的确,过去一年的时间里,深度学习正在改变越来越多的人工智能领域.Google DeepMind 工程师 Jack Rae 预测说,过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津. 深度学习,或者更宽泛地说--使用联结主义

【重磅】Bengio 出山建立深度学习孵化器,寄语中国人工智能产业(附新智元独家专访视频)

Bengio 创建深度学习孵化器,试图打造 AI 生态圈 Yoshua Bengio,这位深度学习崛起背后的领军人物,成立了一个专注人工智能的硅谷式创业孵化器. 这个创业孵化器名为 Element AI,将帮助蒙特利尔大学(Bengio 是该大学的教授)和附近的 McGill 大学 AI 研究团队成立公司.Bengio 说,这只是他在蒙特利尔建立"AI生态圈"计划的一部分.Bengio 表示,蒙特利尔对深度学习的学术研究有着"全世界最多的关注",在这里孕育的 AI

人工智能、大数据与深度学习之间的关系和差异

网络上从不缺乏对数据科学术语进行比较和对比的文章.文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人.这几乎是势不可挡的. 所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子.对,是这样的. 为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一. 所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,

Facebook人工智能实验室主任的深度学习之路

[编者按]目前,各大科技巨头包括谷歌.微软等都在大力发展深度学习技术,通过各种方式挖掘深度学习人才,马克•扎克伯格任命Yann LeCun担任Facebook人工智能实验室主任.这些高科技公司正在探索深度学习的一种特殊形态--卷积神经网络,对于可视化卷积神经网络, LeCun的付出远甚于他人. 以下为原文: 马克•扎克伯格精心挑选了深度学习专家Yann LeCun担任Facebook人工智能实验室的负责人.该实验室于去年年底成立.作为纽约大学任教已久的教授,Yann LeCun对深度学习的研究成

2016这一年,深度学习开始主宰互联网

雷锋网按:2016 即将画上句号,当我们回顾这一年的科技进展时,雷锋网很难不联想到一个词--深度学习.当它从研究室中脱胎而出,并成为今年的当红热词,实际上我们已经意识到深度学习的来临.从 AlphaGo 到 Google Translate,雷锋网也做过不少覆盖和解析.Cade Metz 为 Wired 撰文回顾了与深度学习同行的这一年,雷锋网(公众号:雷锋网)编译,未经许可不得转载. 在澳大利亚西海岸,Amanda Hodgson 正在操控无人机飞跃海面,无人机可以帮助他们在水面上拍摄照片,利