Deepmind AMA:关于最强ALphaGo如何炼成的真心话,都在这里了!

本文讲的是Deepmind AMA:关于最强ALphaGo如何炼成的真心话,都在这里了!,


刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。

什么是AMA?

AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。

本次Deepmind AMA的回答人是:

David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。

Julian Schrittwieser:Deepmind高级软件工程师。

此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

雷锋网从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:

关于论文与技术细节

Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?

David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。

Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?

David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。

Q:关于论文的两个问题:

Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?

Q2:由于整个通道使用自我对局与最近的/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?

David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(雷锋网注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。

Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。

Julian Schrittwieser:感谢分享,这个主意很棒!

我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。

Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?

David Silver:现在这个工具正在准备中。不久后你就能看到新的消息。

Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?

David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。

围棋爱好者的问题

Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。如果是AlphaGo,是否也会下出相同的一首棋?

Julian Schrittwieser:我问了樊麾,他的回答是这样的:

当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。

Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(雷锋网注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。

如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)

Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。

Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?

David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!

即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。

Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?

David Silver:我们没有和人类棋手下让子棋。当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。

Q:你们有没有想过使用生成对抗网络(GAN)?

David Sliver:从某种意义来讲,自我对弈就是对抗的过程。每一次结果的迭代都是在试图找到之前版本的“反向策略”。

传言终结者

Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?

David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。

当然你不可能达到100%的完美,所以缺点总会存在。 在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。

关于DeepMind公司

Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?

David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。有很多(多到忙不过来!:))很酷的项目去参与。

我们很幸运有许多大牛在AlphaGo工作。您可以通过查看相应的作者列表来获取更详细的信息。

Q: 你觉得本科生是否可以在人工智能领域取得成功?

Julian Schrittwiese:当然。我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。另外,去那些做过机器学习项目的公司实习也是很有帮助的。

关于算法的扩展和其他项目

Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?

David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!

Q: 很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。

AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?

David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。

Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?

我对这个领域的发展和进步程度感到好奇。相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?

David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。 我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。 我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。

Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?

Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。

Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1/10。你们做了什么样的优化呢?

Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。(雷锋网按:你确认不是copy上一个问题的答案吗)

Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。 展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?

Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。

我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。

Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?

David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。

Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?

对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?

David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。 我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。






本文作者:岑大师

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-30 08:20:17

Deepmind AMA:关于最强ALphaGo如何炼成的真心话,都在这里了!的相关文章

世界五百强是怎样炼成的?

--对史泰博.欧迪经营策略的分析 史泰博.欧迪在自由竞争时期的主要经营策略: 1.大量投资一级城市,以低价格和大而全的产品线赢得市场: 2.赢得市场后,销售量增大,以销售量来压低供应商的采购成本和获得更长的账期,从而实现资金的周转:同时,大量做OEM产品:以OEM产品来获得较高的利润,对冲非OEM产品低毛利状况. 3.在一级城市实现资金周转后,把这些资金用于投资二级城市(如天津.苏州),以获得先入为主的竞争优势: 4.利用对终端市场的占领和把控,对B2B市场资源进行整合,实现更大的利润: 5.先

【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日,距离发布AlphaGo Zero论文后不到两个月,他们在arXiv上传最新论文<用通用强化学习算法自我对弈,掌握国际象棋和将棋>(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algori

100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识

本文讲的是100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识, AlphaGo"退役"了,但Deepmind在围棋上的探索并没有停止. 今年5月的乌镇大会的"人机对局"中,中国棋手.世界冠军柯洁9段以0:3不敌AlphaGo.随后Deepmind创始人Hassabis宣布,AlphaGo将永久退出竞技舞台,不再进行比赛.同时Hassbis表示:"我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所

百万级应用是怎样炼成的:基于产品与推广

自从乔帮主推出APP Store 构建起一个可循环的生态系统后,移动互联网行业开始火热起来,继而蔓延到中国,甚至影响到整个互联网的发展趋势.可以这么说,APP Store出现的那年是移动互联网的元年.这两年,移动互联网成为互联网行业最热的词语,不管你是个人开发者.初创企业还是互联网巨头,都以各种方式开发 出移动互联网产品,寻找新的蓝海.而在上周,业内朋友推荐我看了极客公园<百万级应用是怎样炼成的>的视频,颇受感染,深受启发,同时结合业内前辈的经验 与自己的经历写下此文,希望正在观看的你能有所获

技术高手如何炼成

郑昀 创建于2015/6/30 最后更新于2015/10/13 关键词:成长,知识体系,学习金字塔,论坛,博客,RCA,分享会 本文档适用人员:技术人员   面试的时候,我会问面试者,你日常如何构建自己的知识体系,如何让自己更高更快更强?多数工程师并没有深入地思考过这个问题,基本上是零敲碎打,随机性大. 本着不能让你白来一趟的精神,好为人师的我会娓娓道来:   第一阶段 认真构建完整的知识体系 十几年前我投身软件行业的时候,光是讲解数据库原理.操作系统.TCP/IP.组网.算法等等基础知识的英文

善良土匪:标题党是这样炼成的(改写)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 好的标题党,会让人在感觉上当受骗的同时,会心一笑,觉察到标题的幽默之所在 坏的标题党,会让人感觉上当被恶意欺骗,浪费网友时间和感情. 标题党类型: 单刀直入型:xx与我,不得不说的故事 网友裤子:这个算是标题党的传统模式了,反正随便写什么都可以说是"不得不说"的事嘛."不得不说"这四个字又引人遐思得很.

好编辑是如何炼成的

摘要: 上周领导通过关系让我参加了一个知名门户网站的内部分享活动,主题是<好编辑是如何炼成的>.听完分享会后,对我帮助挺大的,做了很多笔记,领导让我回来后再和鳄鱼组分享, 上周领导通过关系让我参加了一个知名门户网站的内部分享活动,主题是<好编辑是如何炼成的>.听完分享会后,对我帮助挺大的,做了很多笔记,领导让我回来后再和鳄鱼组分享,于是我就总结了本次分享会的内容点,今天再拿出来和大家一起分享(只讲核心点). 第一步:精选话题 话题是博文的大方向,如果话题不好,文笔再好也没有人在意.

友加炼成记:专注90后陌生人约炮,随时可去秀场开店

8月27日凌晨消息,友加创始人之一的胡铸韬近日接受新浪科技专访时透露,目前友加累计http://www.aliyun.com/zixun/aggregation/10733.html">注册用户近3000万,月活跃用户逼进1000万,绝大部分注册用户是15到25岁的年轻人. "我们的用户非常年轻,更重在表达自我,需要他人倾听."胡铸韬表示,因此用户内容产生更随意,更碎片化.更轻娱乐.更自我.符合90后行为习惯和心理需求. 在他表示,现在的90后用户空闲时间多,喜爱热闹,

]韩寒郭敬明血战背后:逼格如何炼成

<小时代>跟<后会无期>都有一个非常鲜明的特征:这是一部非常有逼格的电影.到底什么是逼格?逼格是如何炼成的? 文/金错刀(微信公众号ijincuodao.覆盖300万科技商业人群的每日一干货) 韩寒跟郭敬明的血战不止是在电影票房上,也在我们的创始人群里. 在我的微信公号文章里,一篇关于<韩寒<后会无期>为何将电影老炮甩在身后>的阅读数据,竟然超过比基尼美女文章<从产品经理角度看http://www.aliyun.com/zixun/aggregatio