A Hierarchical Latent Variable Encoder-Decoder Model for

本文分享的paper旨在解决语言模型生成部分存在的问题,并且以bot为应用背景进行了实验。paper的题目是A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues,作者来自蒙特利尔大学和Maluuba公司,这家公司的研究水平非常地高,arxiv上常常可以刷出高质量的paper。

通常来讲,自然语言对话都会包含两个层次的结构,一个是utterance,由语言的局部统计信息来表征其含义,一个是topic,由一些随机的特征来表征。本文的工作就是对这些utterance中存在的随机特征进行建模,从而提高语言模型生成人类语言时的质量。本文认为,类似于RNNLM这样的语言模型在生成人话质量不高的根本原因在于,没有处理好隐藏在utterance中的随机feature或者说noise,从而在生成next token(short term goal)和future tokens(long term goal)效果一般。

本文的模型Latent Variable Hierarchical Recurrent Encoder Decoder(VHRED),在生成过程中分为两步:

step 1 随机采样latent variables

step 2 生成输出序列

架构示意图见下图:

在生成每一个utterance时,需要用到四个部分,encoder RNN、context RNN、latent variable、decoder RNN,按顺序依次输入和输出。这里的latent variable和IR中的LSI有一点异曲同工,latent表明我们说不清他们到底具体是什么,但可能是代表一种topic或者sentiment,是一种降维的表示。

实验部分,选择了bot作为应用背景,得到了不错的效果。见下图:

本文解决的不仅仅是bot领域对话生成的问题,而是整个seq2seq框架中decoder的问题,只要涉及到decoder生成的部分都可以采用本文的思想来解决问题。latent topic是一个非常有意思的东西,在LSI、推荐系统中都有非常重要的意义,矩阵分解之后得到两个降维之后的矩阵,从一组两个维度映射到了两组两个维度,也就是多了所谓的latent topic,说不清这些topic是什么,但的确可以将相似的东西聚到了一起。本文也是用latent topic来描述隐藏在utterance中那些说不清道不明的随机noise,得到了更好的效果。

来源:paperweekly

原文链接

时间: 2024-09-30 20:31:21

A Hierarchical Latent Variable Encoder-Decoder Model for的相关文章

Learning Phrase Representations using RNN Encoder–Decoder for...

本篇将分享的文章相比于昨天那篇Sequence to Sequence Learning with Neural Networks更早地使用了seq2seq的框架来解决机器翻译的问题,可能上一篇来自于Google,工程性更强一些,学术性有一些不足.本文来自于学术机构,学术范更浓一些.本文的题目是Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation,作者是来自蒙特利

PaperWeekly 第二十七期 | VAE for NLP

引言 提及 Generative Models,Variational Autoencoder (VAE) 和 GAN 可以说是两座大山头.二十四期的「GAN for NLP」一文中对 GAN 在 NLP 中的进展做了详细的介绍,推荐错过的朋友不要再错过.虽然 GAN 在图像生成上效果显著(当然 VAE 也很强),但在 NLP 方面暂时还是 VAE 较为 work.今天的分享作为姊妹篇(捂脸),对 VAE 在 NLP 的应用里最具有代表性的几篇 paper 进行介绍.我会尽量梳理论文之间的联系,

深度:解密巨头们所关注的聊天机器人

雷锋网(公众号:雷锋网)按:本文作者张俊,文章将会详细解密1)聊天机器人所要解决的三个问题:2)以及它们所使用的模式. 引言: chatbot是最近一段时间非常火的一个词或者一个应用,不仅仅各大新闻媒体在热炒bot的概念,各大巨头也投入巨大的资源进行研发,arxiv上刷出bot相关的paper也更是家常便饭.炒作归炒作,PR归PR,不得不说一个尴尬的事实是市面上确实难以找到一个真正好用的bot.bot按照涉及的领域,分为开放域(open-domain)和面向具体任务(task-oriented)

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理初学者在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏览记录 1.google deepmind :Look, Listen and Learn 多信息融合感觉很厉害 2.The Weizmann Institute of Science:Non-Uniform Blind Deblurring by Reblurring 非均匀盲模糊 3.中科大(微软

(zhuan) Variational Autoencoder: Intuition and Implementation

Agustinus Kristiadi's Blog TECH BLOG TRAVEL BLOG PORTFOLIO CONTACT ABOUT Variational Autoencoder: Intuition and Implementation There are two generative models facing neck to neck in the data generation business right now: Generative Adversarial Nets

(zhuan) Recurrent Neural Network

  Recurrent Neural Network  2016年07月01日  Deep learning  Deep learning 字数:24235   this blog from: http://jxgu.cc/blog/recent-advances-in-RNN.html    References Robert Dionne Neural Network Paper Notes Baisc Improvements 20170326 Learning Simpler Langu

AI人工智能专业词汇集

作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客.论文.专家观点等内容上已经积累了超过两年多的经验.期间,从无到有,机器之心的编译团队一直在积累专业词汇.虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步.一直在积累.一直在提高自己的专业性. 两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典.而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区.跨专业等等原因造成的.举个例子,Deep

大神们最近都在读这些论文 | 本周值得读 #44

#GAN# Triple Generative Adversarial Nets 从博弈角度来说,TripleGAN 的博弈涉及三方,判别器.生成器和分类器.其中,判别器和生成器有对抗:判别器和分类器(在训练前期)有对抗:生成器和分类器协助作用.可以从斗地主的角度来看,判别器是地主,生成器和分类器是农民. 它拆掉分类器,就是一个 CGAN.拆掉生成器,它就是一个半监督的 GAN.此外,我们还能从对偶学习的角度进行解读,生成器对 p(x|y) 进行建模,而分类器则对 p(y|x) 建模.两者在判别

计算机视觉、机器学习相关领域论文和源代码大集合

计算机视觉.机器学习相关领域论文和源代码大集合--持续更新-- zouxy09@qq.com http://blog.csdn.net/zouxy09 注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码. 最近一次更新:2013-3-17 一.特征提取Feature Extraction: ·         SIFT [1] [Demo program][SIFT Library] [VLFeat] ·         PCA-SI