【DeepMind最新Nature论文】探索人类行为中的强化学习机制

DeepMind与来自普林斯顿、NYU、达特茅斯学院、UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策略。研究人员具体探讨了一种存在于无模型和基于模型的学习算法之间的方法,基于后继表示(successor representation,SR),将长期状态预测存入缓存中。作者预计,这些发现将为计算科学、电生理学和神经影像学研究开辟新的途径去研究评估机制的神经基础。相关论文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人类行为》上发表。

人类和其他动物在不断变化的环境中适时适机进行决策,这底层的算法是什么?发现其中的机制对于完成序列决策(比如国际象棋和迷宫导航)尤其重要。

过去20年,大部分致力于解决多步骤问题的研究,都关注强化学习(RL)的两类算法,即无模型(MF)和基于模型的(MB)算法。

MF和BM都将决策形式化为长期奖励预期与不同的候选行动之间的关系,但在表示(representation)和计算方面却不尽相同。


突1:无模型、基于模型和基于后继表示的学习算法在表示、计算和行为上的特点对比。来源:论文

MF vs. MB两者的对立使人产生了这样一种观点,那就是在决策的速度和准确性之间有明显的tradeoff:MF将预计算长期行动值直接存储起来,而MB算法则更加灵活,会通过对短期环境的建模来重估行动值,但这样对计算力有更大需求。

长期以来,由于这种速度和精度之间的tradeoff,人们一直以为要实现自主化、仔细思考(deliberation)和控制,需要消耗很多计算资源。同时,MF也被视为适应不良习惯和强迫行为(比如吸毒)的原因。

尽管有实验证明人类和其他动物在某些情况下的决策能够彻底打败MF选择,但极少有证据表明人类大脑是如何进行MB重计算的,甚至人类大脑究竟有没有进行MB重计算。

实际上,在MF和MB之间完全可以有其他的计算路径(shotcut)来合理解释很多现有的实验结果。

为此,普林斯顿、NYU、达特茅斯学院、DeepMind兼UCL以及哈佛大学的研究人员,设计了两项实验,探索了大脑决策时是否使用了存在于MF和MB之间的算法,以及这种算法与MF、MB之间的异同。相关论文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人类行为》上发表。

研究人员发现,人类决策时确实会用到MF和MB之间的中间算法。他们在论文中具体研究了其中的一类重要算法,基于后继表示(successor representation,SR),将长期状态预测存入缓存中。作者预计,这些发现将为计算科学、电生理学和神经影像学研究开辟新的途径去研究评估机制的神经基础。

具体说,研究人员通过实验设计,区分使用SR和MB的计算,重点关注人类是否存储了有关未来状态的长期预期。结果发现,MF策略不存储状态的任何表示,并且在决策时也不计算状态表示(参见图1和图2)。另一方面,MB策略存储并且会检索一步表示(one-step representations),因此决策时间的计算需求会更高。然而,SR缓存了一个多步骤转换的“粗略映射”到智能体以后期望访问的状态。在决策时使用这些缓存的表示,SR在奖励重估中做出了比MF更好的决策,但不能解决转移重估,而MB在所有重新估值方面都做得一样好。另一种可能性是将SR与其他策略相结合,也即论文中所说的“混合SR策略”。混合SR策略可以将半计算的轨迹粗略表示与MB表示或重放相结合。


图2.在奖励和转换重估测试中,模型预测和检索到表示的原理图

所有混合SR策略将比转换重估的纯SR策略更好(但比MB差)。具体来说,相比预测过渡重估,混合SR策略在预测奖励重估时准确性更高,反应时间更快。MF或MB都的预测性能都没有展现出这样的不对称性。

作者通过两项研究实验测试并确认了他们的猜测,为人类行为中的强化学习里的SR提供了第一个直接证据。

摘要

神经科学中强化学习的理论侧重于两个算法族。无模型算法将行动值存入缓存,这样做虽然便宜但不灵活:因此,无模型算法是自适应习惯和适应不良习惯的候选机制。另一方面,基于模型的算法通过从环境模型中重建行动值来实现计算成本的灵活性。我们研究了一类中间算法,后继表示(successor representation,SR),缓存长期状态预期,将无模型的效率和基于模型的灵活性相结合。虽然以前关于奖励重估的研究将无模型算法与基于模型的学习算法区分开来,但这种设计不能区分基于模型和基于SR的算法,后两种都预测了奖励重估的敏感度。然而,改变过渡结构(“过渡重估”)应该有选择性地损害SR的重估。在两项研究中,我们提供的证据表明,人类对奖励重估与过渡重估的差异敏感度与SR预测一致。这些结果为一种新的灵活选择神经计算(neuro-computational)机制提供了支撑,同时为习惯引入了更细微,更认知的看法。

很学术的论文,但推荐阅读:
Nature 论文地址(非公开发表):https://www.nature.com/articles/s41562-017-0180-8
Bio-arXiv 地址:http://www.biorxiv.org/content/biorxiv/early/2016/10/27/083824.full.pdf

时间: 2024-12-31 06:42:34

【DeepMind最新Nature论文】探索人类行为中的强化学习机制的相关文章

【NIPS2017】大会议程最全盘点,7位重磅嘉宾报告,DeepMind、Facebook论文汇总

12月4日,也就是下周一,一年一度的NIPS就要正式召开了.这届NIPS从售票(提前2个月售完)到赞助(赞助商太多关闭赞助通道),屡屡创下新高.待到正式开幕,数千名研究人员和参会者"挤挤一堂",绝非夸张. 那么,作为新智元NIPS系列报道的第一篇,我们将在本文中做一个初步的全景式介绍,包括会议信息,比如大会的Chair.Tutorial和Workshop情况,大会亮点,比如受邀报告,以及DeepMind.Facebook这些顶级研究院的工作. 会议赞助:瞥见当前AI产业势力分布缩影 翻

奇点到来,超越人类 《Nature论文:人工智能从0-1自学打败阿法狗 》论文翻译

本文讲的是奇点到来,超越人类 <Nature论文:人工智能从0-1自学打败阿法狗 >论文翻译, 翻译前言 阿法狗 ZERO以100:0打败阿法狗 ,引起轰动,论文在Nature发表. 阿法狗 ZERO引起轰动的原因: 1.完全自学,超越人类. 2.发展出超越人类认知的新知识,新策略. 3.能够快速移植到新领域 纽约客杂志封面 本文是我和好友春(机器学习在读博士,研究方向为自然语言处理,机器学习,深度学习,微信号:zyc973950709)一同翻译,感谢.其中第三章考虑篇幅去掉,具体查看原文,或

(转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

  本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA   专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 2017-01-28 Yuxi Li 机器之心 选自arXiv 作者:Yuxi Li 编译:Xavier Massa.侯韵楚.吴攀     摘要   本论文将概述最近在深度强化学习(Deep Reinforcement Learning)方面喜人的进展.本文将从深度学习及强化学习的背景知识开始,包

AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋

今年5月乌镇围棋大赛时,DeepMind CEO Hassabis 表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节.今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo-- AlphaGo Zero 的技术细节. AlphaGo Zero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标--创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法--迈进的一大步. 作者在

100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识

本文讲的是100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识, AlphaGo"退役"了,但Deepmind在围棋上的探索并没有停止. 今年5月的乌镇大会的"人机对局"中,中国棋手.世界冠军柯洁9段以0:3不敌AlphaGo.随后Deepmind创始人Hassabis宣布,AlphaGo将永久退出竞技舞台,不再进行比赛.同时Hassbis表示:"我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所

Deepmind &quot;预测地图&quot;论文背后:神经科学或将助力深度学习迎来新突破

对人类神经网络的理解越来越在左右人工智能的未来研究,连Deepmind也不例外. 2017年10月2日,<NATURE NEUROSCIENCE>发表了Deepmind的一篇<The hippocampus as a predictive map>的论文.这篇论文中,Deepmind通过对主管人类长期记忆行为的"海马体"(hippocampus)神经元活动的研究,进一步提出了可以转化为神经网络架构的"预测图"理论. 在博客中,Deepmind

深度 | Nature论文详解概率机器学习:从不确定性表征到自动建模(附论文)

机器如何从经验中学习?概率建模提供了一个框架,帮助我们理解什么是学习,也因此成为了设计可从经验数据中学习的机器的主要理论和实践办法.这种描述了如何表征和控制模型和预测的不确定性的概率框架,在科学数据分析.机器学习.机器人技术.认知科学以及人工智能领域中扮演着中心角色.这篇评论介绍了这种框架,并讨论了该领域的最新进展--即概率编程.贝叶斯优化.数据压缩以及自动模型发现. 机器学习概率框架的核心思想是:学习可被看作是推理合理模型以用于解释被观测到的数据的过程.一台机器可以利用此模型去预测未来数据,并

【一文读懂Hinton最新Capsules论文】CNN 未来向何处去

Hinton 上周发表的一篇论文 Dynamic Routing Between Capsules 提出用 Capsule 这个概念代替反向传播,引起广泛关注,大数医达创始人,CMU计算机学院暨机器人研究所博士邓侃用浅显的语言梳理解读了论文.邓侃认为,capsule 作为视觉数学表征,很可能是为了把视觉,听觉.阅读的原本相互独立的数学向量,统一起来,完成多模态机器学习的终极目标. CNN 未来向何处去? 做领袖不容易,要不断地指明方向.所谓正确的方向,不仅前途要辉煌,而且道路要尽可能顺畅. G

斯坦福Nature论文宣布新突破:AI诊断皮肤癌达专家水平

雷锋网AIHealth栏目了解到,斯坦福大学的研究者开发出一个诊断皮肤癌的AI算法,并且诊断结果达专家水平,该研究的相关论文已经发表在 Nature 上 皮肤癌是一种很常见的恶性肿瘤,主要通过对部分皮肤区域的分析进行鉴定.皮肤科医生使用皮肤镜(dermatoscope)来观察皮肤,这是一种手持显微镜. 在其论文中称道, 在我们的实验中,通过学习,深层卷积神经网络(CNN)可以由图像和疾病名称识别疾病.并且,结果可与通过职业认证皮肤科医生的诊断媲美. 研究成员和论文的共同作者Andre Estev