OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

雷锋网(公众号:雷锋网) AI科技评论按:OpenAI最新发现表明,通过在网络的参数空间中加入噪声,可以获得远优于在网络的行为空间中增加噪声的表现。此外,他们发布了一系列基准代码,覆盖多个网络。

雷锋网 AI科技评论编译如下:

OpenAI实验室最新发现:频繁地给增强学习算法中的参数增加自适应噪声后,能得到更好的结果。这种方法实现简单,基本上不会导致结果变差,值得在任何问题上尝试。

图1:加入行为空间噪声训练的模型

图2:加入参数空间噪声训练的模型

参数噪声可以帮助算法高效地探索出合适的动作范围,在环境中获得优良表现。如图1、图2所示,经过216个episode的训练之后,没有加入参数噪音的DDPG会频繁产生低效的奔跑行为,而加入参数噪声训练之后产生的奔跑行为得分更高。

增加参数噪声后,智能体学习任务的速度变得更快,远优于其他方法带来的速度增长。在半猎豹运动环境(图1、图2)中经过20个episode的训练之后,这项策略的得分在3000分左右,而采用传统动作噪音训练的策略只能得到1500分左右。

参数噪声方法是将自适应噪声加在神经网络策略的参数中,而不是加在行为空间。传统的增强学习(RL)利用行为空间噪声来改变智能体每一刻执行的动作的可能性。参数空间噪声使智能体的参数直接增加了随机性,改变了智能体做出的决策的类型,使它们总是能完全依赖于对当前环境的感知。这种技术介于进化策略(可以控制智能体的参数,但是当它在每一步中探索环境时,不会再次影响它的行为)和类似TRPO、DQN、DDPG这样的深度增强学习方法之间
(不能控制参数,但可以在策略的行为空间上增加噪声)。

图3:左边是行为空间噪声,右边是参数空间噪声

参数噪声可以让算法更高效的探索环境,得到更高的分数和更优雅的动作。因为有意的在策略参数中增加噪声,能使智能体在不同时刻的探索保持一致,而在行为空间中增加噪声,会让探索过程更加难以预测,这种探索过程也就与智能体的参数没有特定的关联性。

人们之前曾尝试过将参数噪声应用于策略梯度。在OpenAI的探索之下,这种方法现在可以用在更多地方了,比如用在基于深度神经网络的策略中,或是用在基于策略和策略无关的算法中。

 

图4:加入行为空间噪声训练的模型

图5:加入参数空间噪声训练的模型

如图4、图5所示,增加参数空间噪声后可以在赛车游戏中获得更高的分数。经过2个episode的训练,训练中在参数空间增加噪声的DDQN网络学会了加速和转弯,而训练中在行为空间增加了噪声的网络展现出的动作丰富程度就要弱很多。

在进行这项研究时他们遇到了如下三个问题:

  • 不同层数的网络对扰动的敏感性不同。
  • 在训练过程中,策略权重的敏感性可能会随着时间改变,这导致预测策略的行动变得很难。
  • 选取合适的噪声很困难,因为很难直观地理解训练过程中参数噪音是怎么影响策略的。

第一个问题可以用层级归一化来解决,这可以保证受到了扰动的层的输出(这个输出是下一个层级的输入)与未受扰动时的分布保持相似。

可以引入一种自适应策略来调整参数空间扰动的大小,来处理第二和第三个问题。这一调整是这样实现的:测量扰动对行为空间的影响和行为空间噪声与预定目标之间的差异(更大还是更小)。这一技巧把选择噪声大小的问题引入行为空间,比参数空间具有更好的解释性。

选择基准,进行benchmark

OpenAI发布了一系列基准代码,为DQN、双DQN(Double DQN)、决斗DQN(Dueling DQN)、双决斗DQN(Dueling Double DQN)和DDPG整合了这种技术。

此外,也发布了DDQN在有无参数噪声下玩部分Atari游戏性能的基准。另外还有DDQN三个变体在Mujoco模拟器中一系列连续控制任务下的性能基准。

研究过程

在第一次进行这项研究时,OpenAI发现应用到DQN的Q函数中的扰动有时候太极端了,导致算法重复执行相同的动作。为了解决这个问题,他们添加了一个独立的策略表达流程,能够像在DDPG中一样明显的表示出策略(在普通的DQN网络中,Q函数只能隐含的表示出策略),使设置与其他的实验更相似。

然而,在为这次发布准备代码时,他们做了一次实验,在使用参数空间噪声时没有加独立的策略策略表达流程。

他们发现实验的结果与增加独立策略表达流程之后的结果很相似,但实现起来更简单。进一步的实验证实独立的策略头确实是多余的,因为算法很可能在早期的实验中就得到了改进(他们改变了调节噪声的方式)。这种方法更简单、更具有可行性,降低了训练算法的成本,并且能得到相似的结果。

重要的是要记住,AI算法(特别是在增强学习中)可能会出现一些细微的失败,这种失败会导致人们寻找解决方案的时候很难对症下药。

雷锋网 AI科技评论编译。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-30 08:31:23

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度的相关文章

OpenAI最新研究:“对抗样本”能轻易黑掉AI系统,如何抵御?

雷锋网(公众号:雷锋网)按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:"对抗样本",它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响.在这篇由"GANs"之父Ian Goodfellow领衔撰写的文章里,OpenAI针对"对抗样本"进行了防御策略的实验,其中有两种方法效果显著,但也并不能解决根本问题.OpenAI表示设计出抵抗强大.具有适应性攻击者的防御策略,是非常重要的研究领域.本文原载于OpenAI Blo

OpenAI"巧妙"发现无监督情感神经元,可利用文本检测用户情感

雷锋网(公众号:雷锋网)4月7日消息,OpenAI在官网公布了一项最新的研究成果,介绍了一个可以高效学习情感表征的无监督系统,目前能够预测亚马逊评论中的下一个字符. 研究人员采用了线性模型,在一个小型但是被广泛采用的数据集(Standford Sentiment Treebank)上取得了非常高的情感分析准确度:OpenAI得到的准确度为91.8%,而之前最好的是90.2%.这一表现可以匹敌之前的监督系统,而且少用了30~100倍的标记样本. 此外OpenAI表示,其模型的表征还包含了一个独立的

百度对新站更新周期最新发现

笔者最近通过很多例子可以发现,百度对新站的更新大多数只是收录首页,经过一段时间给予内页的临时收录,并且放出部分关键词排名. 通过关键词的竞争度来估算排名周期及相关结果数.例如:百度搜索"路由器设置"这个关键词时会出现"百度为您找到相关结果约227000,000个".页面达到收录标准被百度收录后进行拆分,百度每个词都有一个词库,如果有这个词的页面就会出现在这里.   通过观察可以发现,相关结果数在500万以下一两个月,相关数在500万到1000万基本上在三个月,一千万

RSA2013:赛门铁克解密Stuxnet最新发现

2月28日消息, RSA2013(美国)大会,赛门铁克的新发现表明曾经攻击过伊朗核设施的超级蠕虫Stuxnet的存在时间远早于研究者原来的 估计.赛门铁克在此次RSA 大会上的证据表明一个较早的破坏力较小的被称为Stuxnet 0.5的恶意软件样本.这个样本早在 2007年11月就已经出现,比后来广泛传播的主流版本Stuxnet 1.0(被视为以色列-美国网络间谍破坏项目的结晶)早了 三年.此外,赛门铁克称,Stuxnet的命令和控制服务器至少在2005就已经存在,说明Stuxnet 0.5的开

IBM:最新突破将大幅提升深度学习速度

近年来,处理器技术进入如此大,一个像U盘那么大的设备现在都可以用于为神经网络提供能量.但是,企业通常很难充分发挥其计算能力,因为实施大规模人工智能过程中还存在的根本挑战. 这个问题和可扩展性有关,本周二IBM发布了一种名为分布式深度学习(Distributed Deep Learning,DDL)的软件库来解决这个问题.深度学习是机器学习的一个子集,旨在教计算机以人类相同的方式进行学习.例如,人们不会通过描述这个生物有4条腿.1个鼻子和1条尾巴的事实来识别出这是一只狗.一旦人们知道狗是什么样子,

如何学习linux的建议

  一.从基础开始 常常有些朋友在Linux论坛问一些问题,不过,其中大多数的问题都是很基的.例如:为什么我使用一个命令的时候,系统告诉我找不到该目录,我要如何限制使用者的权限等问题,这些问题其实都不是很难的,只要了解了Linux的基础之后,应该就可以很轻易的解决掉这方面的问题.而有些朋友们常常一接触Linux就是希望构架网站,根本没有想到要先了解一下Linux的基础.这是相当困难的. 二.Linux命令是必须学习 虽然Linux桌面应用发展很快,但是命令在Linux中依然有很强的生命力.Lin

Linux系统新手学习的11点建议

  随着Linux应用的扩展许多朋友开始接触Linux,根据学习Windwos的经验往往有一些茫然的感觉:不知从何处开始学起.这里介绍学习Linux的一些建议. 一.从基础开始:常常有些朋友在Linux论坛问一些问题,不过,其中大多数的问题都是很基础的.例如:为什么我使用一个命令的时候,系统告诉我找不到该目录,我要如何限制使用者的权限等问题,这些问题其实都不是很难的,只要了解了 Linux 的基础之后,应该就可以很轻易的解决掉这方面的问题.而有些朋友们常常一接触Linux 就是希望构架网站,根本

PHP扩展开发入门教程

 这篇文章主要介绍了PHP扩展开发入门教程,本文讲解了使用C语言在Linux系统下开发一个PHP扩展应该具备的最基本知识,需要的朋友可以参考下     PHP扩展开发 我准备在此系列博文中总结我有关PHP扩展开发的学习和感悟,力图简单清晰地描述在Linux系统下开发一个PHP扩展应该具备的最基本知识.水平较低,难免有错误,望指出. 准备工作 首先要获取一份PHP源码(可以从Github上签出,或者到官网上下载最新的稳定版),然后编译之.为了加快编译速度,我们推荐禁用所有额外的扩展(使用--dis

独家 | 一文读懂优化算法

一.前言 模拟退火.遗传算法.禁忌搜索.神经网络等在解决全局最优解的问题上有着独到的优点,其中共同特点就是模拟了自然过程.模拟退火思路源于物理学中固体物质的退火过程,遗传算法借鉴了自然界优胜劣汰的进化思想,禁忌搜索模拟了人类有记忆过程的智力过程,神经网络更是直接模拟了人脑.它们之间的联系也非常紧密,比如模拟退火和遗传算法为神经网络提供更优良的学习算法提供了思路.把它们有机地综合在一起,取长补短,性能将更加优良. 这几种智能算法有别于一般的按照图灵机进行精确计算的程序,尤其是人工神经网络,是对计算