DeepMind新论文:在复杂环境中,智能体能更聪明地进行想象和思考了

雷锋网 AI科技评论按:不同于AlphaGo所处的“完美环境”,在复杂和不完美的环境中,智能体能高效地思考,对未来的结果进行想象吗?DeepMind推出新论文,描述了一类基于想象来进行计划的新方法,在不完美的环境中也同样具有高效性。

雷锋网(公众号:雷锋网) AI科技评论将其编译如下:

在行动之前想象可能出现的结果是人类认知中的一个有力工具。例如,当在桌子边缘放一个玻璃杯,我们会停下来想一想:这样稳固吗,杯子会不会掉下来。根据想象的结果,我们会把杯子的位置调一下,防止它掉下来摔碎。这种慎重的推理过程实际上就是想象,它是人类一种独特的能力,在日常生活中至关重要。

如果想让算法也能执行同样复杂的行为,那么这种算法也必须和人一样,对未来具有想象和推理能力。除此之外,他们还必须会利用这种能力来制定计划。已经有算法能做出许多引人瞩目的事情——特别是像AlphaGo这样的程序,它使用内部模型来分析行为是如何产生结果的,以便进行推理和计划。这些内部模型运行得很好,因为像围棋这样的环境是“完美的”——这些算法有明确定义的规则,在几乎所有情况下都能准确地预测出结果。但现实世界是复杂的,规则并不会定义得那么清楚,经常会有未知的情况出现。即使是最聪明的智能体,在这样的复杂环境中进行想象也是一个漫长、耗费巨大的过程。

能够应付不完美的环境,学会使规划策略适应当前的情况,这些都是重要的研究课题。

在论文Learning model-based planning from scratchImagination-Augmented Agents for Deep Reinforcement Learning中,DeepMind描述了一类基于想象来进行计划的新方法。同时也介绍了一些架构,这种架构能为智能体提供学习和制定计划的新方法,使任务的效率最大化。这些架构很高效,在复杂和不完美的环境中具有鲁棒性,能够通过想象采取灵活的策略。

增强想象智能体

这类智能体得益于一个“想象力编码器”——能为智能体的未来决策提取一切有用信息,忽视无关信息的神经网络。这些智能体的明显特征如下:

  • 能够学会说明智能体的内部模拟过程。这使得他们能够使用模型,粗略地捕捉环境的动态,即使有时候那些动态并不完美。
  • 有效的运用想象力。通过改变想象的轨迹的数量,来适应问题。编码器也提高了效率,它能通过想象提取奖励之外的信息,这些想象的轨迹可能包含有用的线索,即使他们并不一定导致较高的奖励。
  • 能学习不同的策略来制定计划。可以选择继续当前想象的轨迹或者从头开始。或者,他们可以利用不同的想象模型,这些模型具有不同的精度和计算成本。这为他们提供了大量高效的规划策略,而不是局限于一成不变的、在不完美环境中会限制系统适应性的方法。

测试架构

DeepMind在不同的游戏上测试了这个架构,包括益智游戏推箱子和宇宙飞船航行游戏。这两款游戏都需要提前计划和推理,这使得它们成为测试智能体能力的绝佳环境。

  • 在推箱子中,智能体必须把箱子推到目标上。因为箱子只能被推,许多移动都是不可逆的(例如,推到角落里的盒子不能被拉出来)。
  • 在宇宙飞船游戏中,智能体必须通过固定的次数激活推进器,进而稳定飞船。在游戏中必须与几个星球的引力相抗衡,这是一个很复杂的非线性连续调节任务。

为了限制这两个游戏的试错行为,每一关都是程序生成的,失败之后不能再重玩。这鼓励智能体在实际环境中行动之前,先想象执行不同的策略带来的结果。

在上图中,游戏中的元素是以像素形式呈现给智能体的,它并不知道游戏的规则。在特定的时间点上,DeepMind将智能体对接下来5种可能的想象进行了可视化。根据这些信息,智能体决定采取什么行动。相应的轨迹在图中已经标明。

图示为玩飞船游戏的智能体。红线表示在游戏中执行的轨迹操作,蓝线和绿线描述了想象的轨迹。

对于这两种任务,增强想象的智能体都优于作为基准的无想象智能体:他们可以通过更少的经验来学习,并且能够处理对环境建模时的缺陷。智能体能够从内部模拟中提取更多的知识,因此他们可以用更少的想象步骤解决更多的任务,优于传统的搜索方法,比如蒙特卡罗树搜索。

当增加一个有助于制定计划的管理组件时,智能体就会学着用更少的步骤更高效地解决问题。在宇宙飞船任务中,它可以分辨环境中的引力是强还是弱,这意味着需要不同数量的想象步骤。当为智能体提供环境中的多个模型时,每个模型在质量和成本上都有所不同,它学会了做出有意义的权衡。最后,如果每执行一步,想象的计算成本增加,那么智能体就会在早期想象多个步骤的结果,并且在之后依靠这种想象的结果,而不需要再次进行想象。

能够应付不完美的环境,并学会使规划策略适应当前的情况是重要的研究课题。DeepMind的两篇新论文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning,以及Hamrick等人之前的研究,考虑到了这些问题。基于模型的强化学习和计划是研究的热点,为了提供可扩展的方法来丰富基于模型的、能运用想象力对未来进行计划和推理的智能体,需要进一步分析和思考。

via:DeepMind Blog

雷锋网 AI科技评论编译。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-12-11 12:09:09

DeepMind新论文:在复杂环境中,智能体能更聪明地进行想象和思考了的相关文章

物联网使学校更智能学生更聪明

此份调查由Extreme Networks发起,他们还对学校进行了调查,9%的参与方表示他们已经拥有了部分智能校园的计划,还有3%的参与方表示他们计划在接下来1-3年内就实施计划. 然而这并不意味着智能校园的概念在当今社会就已经成为了主流.29%的参与方表示智能校园的概念对于他们而言太新颖了,还有36%的参与方表示他们对这一讨论主题所知甚少. 学校部署物联网的要求很高,然而许多学校都缺乏即时可用的资源来建设智能校园. 学校倘若要部署物联网,整个校区都必须实现WiFi全面覆盖,而宽带网络还应当承受

Oracle 12c新特性:多租户中使用 CONTAINERS 语句跨越PDB查询

张乐奕 云和恩墨副总经理,Oracle ACE总监,ACOUG 联合创始人 在最新版本的 Oracle Database 12.1.0.2 中,新特性提供了 PDB Containers 子句,用以从 CDB$ROOT 层面直接聚合查询多个 PDB 中同一张表的数据.在新特性文档中该段如下描述: 但是实现起来并非看上去如此简单. 现有测试环境如下:当前 CDB 中有 2 个 PDB,分别是 PDB1 和 PDB2:每个 PDB 中都有一个相同名字的 Local User,为 KAMUS:每个 K

CIO在企业通信环境中扮演的角色

今天企业所处业务环境的变化给企业生存带来更多的挑战.在这个讲求效率的时代,企业需要在最短的时间内,以最快的速度响应市场变化,调整企业战略.客户驱动型企业还要面临更多的挑战.以什么方式来提供最好的服务?如何缩短客户等候时间,实现一致的客户体验?如何实施更好的业务流程,做到实时响应,提高客户对联络中心,乃至企业的满意度. 变化的客户需求和外部环境要求企业改变固有的业务模式,需要创新,实现转型.之所以要创新.转型,很大程度上是企业需要突破传统生命周期理论的限制,寻找新的发展机会.正像达尔文说过的那样,

DeepMind论文三连发:如何在仿真环境中生成灵活行为

一只猴子在树林之间敏捷而灵活地跳跃穿梭,或者一名足球运动员快速带球过人.劲射得分,这些表现皆令人惊叹.掌握这种精密复杂的运动控制是物理智能(physical intelligence)成熟的标志,同时也是人工智能研究中的关键一环. 真正的运动智能需要学习控制和协调身体的灵活性从而完成复杂环境之中的任务.控制物理仿真类人身体的尝试来自多个领域,包括计算机动画和生物力学(biomechanics).存在一种使用手工对象(有时带有动作捕捉数据)生成特定行为的趋势.然而,这可能需要相当多的工程学努力,且

【DeepMind最新Nature论文】探索人类行为中的强化学习机制

DeepMind与来自普林斯顿.NYU.达特茅斯学院.UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策略.研究人员具体探讨了一种存在于无模型和基于模型的学习算法之间的方法,基于后继表示(successor representation,SR),将长期状态预测存入缓存中.作者预计,这些发现将为计算科学.电生理学和神经影像学研究开辟新的途径去研究评估机制的神经基础.相关论文<The successor representation in human rei

WebSphere智能管理在实际生产环境中几种典型的拓扑结构

在 WebSphere Application Server V8.5 中,最重要的新特性是新的 Liberty Profile 以及智能管理.其中智能管理是依靠 WebSphere Virtual Enterprise 的来实现的.在实现中间件虚拟化的产品中 WebSphere Virtual Enterprise(WVE) 是 IBM 的核心产品,WVE 为中间件服务器提供了完整的应用基础架构虚拟化环境,在这种应用虚拟化环境中,应用程序与服务器是一种松散耦合的模式,随着访问量的不断变化,运行

asp环境中如何把从文本域中获得的日期(格式为yyyy/mm/dd)加上特定天数后显示在新文本域中?

问题描述 asp环境中如何把从文本域中获得的日期(格式为yyyy/mm/dd)加上特定天数后显示在新文本域中? asp环境中如何把从文本域中获得的日期(格式为yyyy/mm/dd)加上特定天数后显示在新文本域中? 解决方案 d = CDate(文本框) DateAdd("d", d, 天数) Print d

机器人走路未必笨拙,DeepMind新方法训练的人工智能走得就很飘逸

雷锋网(公众号:雷锋网) AI 科技评论按:无论是在树木间乱窜的猴子,还是躲避对手和进击目标的足球运动员,他们灵活敏捷的速度,都让人十分惊叹.掌握这种复杂的电机控制是物理智能研究的方向,是 AI 研究的重要组成部分. 真正的智能电机需要在一系列复杂的环境中,学习如何调节控制身体使其更加灵活来完成任务.目前,很多领域开始研究如何控制模拟人,包括计算机动画和生物力学领域.智能电机的另一种发展趋势是,使用手工制作的目标或运动捕捉的数据来产生特定的行为. 然而,这可能需要相当多技术工作的努力,也可能会导

100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识

本文讲的是100:0!Deepmind Nature论文揭示最强AlphaGo Zero,无需人类知识, AlphaGo"退役"了,但Deepmind在围棋上的探索并没有停止. 今年5月的乌镇大会的"人机对局"中,中国棋手.世界冠军柯洁9段以0:3不敌AlphaGo.随后Deepmind创始人Hassabis宣布,AlphaGo将永久退出竞技舞台,不再进行比赛.同时Hassbis表示:"我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所