Deep Reinforcement Learning with a Natural Language Action Space

本文继续分享一篇深度增强学习在NLP中应用的paper,题目是Deep Reinforcement Learning with a Natural Language Action Space,作者是来自微软的Ji He博士,文章最早于2015年11月发在arxiv上,2016年6月8号update。

通过前两篇文章的介绍,基本对DQN在NLP中应用有了一个清晰的认识,与DQN之前应用不同的地方在于两个方面:

1、actions的量级很大。

2、transition tuple的具体形式随着模型来变化。

本文也是以text games为研究背景,将输入从state变为(state,action)对,提出了Deep Reinforcement Relevant Network(DRRN)模型。

上图中,前两个是baseline模型,第三个是本文模型,理解起来都比较简单。

(a) Max-action DQN

该模型适用于每一个transition中actions的最大数量是已知的情况,将每个transition中state和actions拼接成一个向量作为输入,通过一个Deep Network得到每个action的Q值。

(b) Per-action DQN

该模型将每一对(state,action)拼接成一个向量作为输入,通过network得到每个action的Q值。

(c) DRRN

本文模型分别将每对(state,action)中的state和action单独构建network,分别学习出不同的表示,然后用一种逐元素操作方法得到Q值,比如对两个向量作内积。这里,state往往是一个比较长的文本,可能是几句话,而action一般来说是一个动词短语,通过不同的网络结构进行学习,得到相同维度的表示,然后做内积,内积就是相似度的一种表征,也就是本文模型中的relevant。

其实,对比着看不同DRL paper,只需要仔细对比看算法流程图,就知道哪些地方不同了,本文的如下图:

本文算法中还有一个不同的地方在于,在策略选择上的trade-off,一般的方法均采用ε-greedy策略,本文用了一种softmax selection的方法来做exploration(对应着ε)策略,根据下面计算出的概率来进行选择:

本文模型最大的优点在于可以处理比较复杂的action,不像Language Understanding for Text-based Games using Deep Reinforcement Learning文章中只能处理一个action word加一个object word组成的command。

本文考虑问题的角度不同,不是传统RL给定一个state,然后通过一个最优的Q来确定一个最优的action,而是将state和action放在一个层面上来做计算,虽然最后也是通过最优的Q来选择action,但通过用action和state的相关性来计算Q,使得其具有更广的应用前景。

这是DQN在NLP中应用系列的最后一篇文章,文章数量比较少,所以不写综述了。整体的感觉是,应用还不太多,也没有看到特别惊艳的表现。不过,可以无穷无尽地构造训练用的样本是一个非常大的优点。三篇文章有两篇是研究text games的,只有一篇是做text generation的,并且DQN的痕迹很重,都是依着同一个框架进行修改和适应,并没有很多特别的地方。很期待,后面的研究可以将Deep Reinforcement Learning在NLP的各个任务中进行应用,像seq2seq+attention模型那样横扫整个NLP任务。

来源:paperweekly

原文链接

时间: 2024-11-10 10:37:00

Deep Reinforcement Learning with a Natural Language Action Space的相关文章

(zhuan) Deep Reinforcement Learning Papers

  Deep Reinforcement Learning Papers   A list of recent papers regarding deep reinforcement learning. The papers are organized based on manually-defined bookmarks. They are sorted by time to see the recent papers first. Any suggestions and pull reque

18 Issues in Current Deep Reinforcement Learning from ZhiHu

  深度强化学习的18个关键问题   from: https://zhuanlan.zhihu.com/p/32153603     85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两天我阅读了两篇篇猛文A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向.原文归纳出深度强化学习中

Generating Text with Deep Reinforcement Learning

上一篇介绍了DQN在文字游戏中的应用,本文将分享一篇DQN在文本生成中的应用,将一个领域的知识迁移到其他领域应用的时候,都需要做概念上的等效替换,比如context可以替换为state,被预测的word可以替换为action.本文分享的题目是Generating Text with Deep Reinforcement Learning,作者是来自National Research Council of Canada的Hongyu Guo研究员,文章最早于2015年10月30日submit在ar

Deep Reinforcement Learning for Dialogue Generation

本文将会分享一篇深度增强学习在bot中应用的文章,增强学习在很早的时候就应用于bot中来解决一些实际问题,最近几年开始流行深度增强学习,本文作者将其引入到最新的bot问题中.paper的题目是Deep Reinforcement Learning for Dialogue Generation,作者是Jiwei Li,最早于2016年6月10日发在arxiv上. 现在学术界中bot领域流行的解决方案是seq2seq,本文针对这种方案抛出两个问题: 1.用MLE作为目标函数会导致容易生成类似于"呵

论文笔记之:Dueling Network Architectures for Deep Reinforcement Learning

  Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper    摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function.  这个设计的主要特色在于 generalize learning across act

(转) Deep Reinforcement Learning: Playing a Racing Game

Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playing Out Run, session 201609171218_175epsNo time limit, no traffic, 2X time lapse Above is the built deep Q-network (DQN) agent playing Out Run, trained

论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning

  Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop    Paper : https://arxiv.org/pdf/1611.03718v1.pdf Project Page : https://github.com/imatge-upc/detection-2016-nipsws   摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Objec

(转) Playing FPS games with deep reinforcement learning

  Playing FPS games with deep reinforcement learning     博文转自:https://blog.acolyer.org/2016/11/23/playing-fps-games-with-deep-reinforcement-learning/   When I wrote up 'Asynchronous methods for deep learning' last month, I made a throwaway remark tha

(转) Deep Reinforcement Learning: Pong from Pixels

Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from Pixels May 31, 2016 This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatica