A Hierarchical Neural Autoencoder for Paragraphs and Documents

本篇将会分享一篇用自动编码器(AutoEncoder)来做文档表示的文章,本文的结果会给自然语言生成、自动文摘等任务提供更多的帮助。本文作者是来自斯坦福大学的博士生Jiwei Li,简单看了下其简历,本科居然是北大生物系的,是一个跨界选手。本文的题目是A Hierarchical Neural Autoencoder for Paragraphs and Documents,于2015年6月放在arxiv上。

自动编码器之前接触的并不多,所以读了下Yoshua Bengio的deep learning一书补了一下知识。其实挺简单的,就是通过构造一个网络来学习x->x,最简单的原型就是h=f(x),x=g(h)。如果输入和输出的x都是完全一样的话,那么就没什么意义了。一般来说,后一个x会与前一个x有一些“误差”或者说“噪声”。而且自动编码器关注的是中间层h,即对输入的表示。如果h的维度小于x的维度,学习这个表示其实就是一个降维的过程。自动编码器有很多种类型,这里就不一一赘述了。

本文的贡献在于用分层LSTM模型来做自动编码器。模型分为三个,为递进关系。

1、标准的LSTM,没有分层。模型结构看起来和最简单的seq2seq没有区别,只是说这里输入和输出一样。看下图:

2、分层LSTM。这里分层的思想是用句子中的所有单词意思来表示这个句子,用文档中的所有句子意思来表示这个文档,一层接一层。看下图:

在word这一层,用一个标准的LSTM作为encoder,每一句中的最后一个word的hidden state作为该句的state,在sentence这一层,文档中所有的句子构成一个序列,用一个标准的LSTM作为encoder,得到整个文档的表示。decoder部分同样是一个分层结构,初始state就是刚刚生成的文档表示向量,然后先decoder出sentence这一层的表示,然后再进入该sentence对其内部的word进行decoder。

3、分层LSTM+Attention,这里的Attention机制和之前分享的是一样的,并且只在sentence这一层用了attention,参看下图:

在decoder部分中生成句子表示时,会重点注意输入中与该句子相关的句子,也就是输入中与之相同的句子。这里注意力的权重与Neural Machine Translation by Jointly Learning to Align and Translate 中的计算方法一样。

在实验中验证了本文模型的有效性,并且经过对比验证了第三种模型的效果最好,其次是第二种,最差的第一种,也与预期的相符。

昨天分享的也是一个分层模型,相比于单层的模型效果更好一些,这是否可以引起一些思考?本文也提到后面可以将本文的这种思想应用到自动文摘、对话系统、问答系统上。虽然seq2seq+attention已经在这几大领域中取得了不错的成绩,但如果改成分层模型呢,是不是可以取得更好的成绩?是不是可以将本文的input和output换作自动文摘中的input和target,然后用同样的方法来解决呢?我想应该是可以的。

另外,因为我个人比较关注自动文摘技术,自动文摘中abstractive类的方法一般都会涉及到Paraphrase(转述,换句话说),本文的自动编码器模型正好很适合做Paraphrase,输入一句话或者一段话,得到一个带有“误差”的语句通顺的版本。一种最简单的思路,用传统的方法提取出文中最重要的几句话(extractive式的方法),用Paraphrase处理一下得到文本摘要。

来源:paperweekly

原文链接

时间: 2024-09-21 11:37:56

A Hierarchical Neural Autoencoder for Paragraphs and Documents的相关文章

基于深度学习的智能问答

作者:周小强 陈清财 曾华军 1引言 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自动问答系统较以往任何时候都显得离实际应用更近.这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得益于维基百科等大规模知识库以及海量网络信息的出现.然而,现有的自动问答系统所面临的问题远没有完全解决.事实上,无论是业界应用还是学术研究,问句的真实意图分析.问句

全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

作者:Vineet John 机器之心编译 参与:吴攀.李亚洲.蒋思源 文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布了一篇关于用于文本特征提取的神经网络技术的综述论文.机器之心对该论文进行了编译介绍,论文原文可点击文末「阅读原文」查阅. https://arxiv.org/abs/1704.08531 本论文的目标是促进有关使用神经网络架构的文本特征提取技术的讨论.本论文中所讨论的研究问题关注的是当前最佳的神经网络技术,它们已经

QA Systems and Deep Learning Technologies – Part 1

1. Introduction The automatic question and answering (QA) system has been in use for decades now. However, Siri's and Watson's success in 2011 has captured the whole industry's attention. Since the success of these two technologies, the automatic QA

QA Systems and Deep Learning Technologies – Part 2

Introduction This is the second article in a two part series about QA Systems and Deep Learning. You can read part 1 here. Deep Learning is a subfield of machine learning, and aims at using machines for data abstraction with the help of multiple proc

awesome-nlp

  awesome-nlp  A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park (sp3005@nyu.e

(zhuan) Recurrent Neural Network

  Recurrent Neural Network  2016年07月01日  Deep learning  Deep learning 字数:24235   this blog from: http://jxgu.cc/blog/recent-advances-in-RNN.html    References Robert Dionne Neural Network Paper Notes Baisc Improvements 20170326 Learning Simpler Langu

PaperWeekly 第二十七期 | VAE for NLP

引言 提及 Generative Models,Variational Autoencoder (VAE) 和 GAN 可以说是两座大山头.二十四期的「GAN for NLP」一文中对 GAN 在 NLP 中的进展做了详细的介绍,推荐错过的朋友不要再错过.虽然 GAN 在图像生成上效果显著(当然 VAE 也很强),但在 NLP 方面暂时还是 VAE 较为 work.今天的分享作为姊妹篇(捂脸),对 VAE 在 NLP 的应用里最具有代表性的几篇 paper 进行介绍.我会尽量梳理论文之间的联系,

用深度学习来解析梦境中出现的物体

这篇文章主要的工作算是机器学习和神经科学的结合工作,需要读者在这两个方向有一定的基础. 另有科普版本,结构更加清晰,不过删减了很多内容.科普版本如下: 用深度学习来解析梦境中出现的物体 - 行为与认知神经科学 (https://zhuanlan.zhihu.com/p/27948255) 机器学习简介:机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法.最近大火的深度学习则是机器学习的一个分支,主要用基于人工神经网络的各种方法来实现目的,现在有很多变种,本文中使用的神

PaperWeekly 第十八期 --- 提高seq2seq方法所生成对话的流畅度和多样性

引言 对话系统是当前的研究热点,也是风险投资的热点,从2016年初开始,成立了无数家做chatbot.语音助手等类似产品的公司,不管是对用户的,还是对企业的,将对话系统这一应用推到了一个新的高度.seq2seq是当前流行的算法框架,给定一个输入,模型自动给出一个不错的输出,听起来都是一件美好的事情.seq2seq在对话系统中的研究比较多,本期PaperWeekly分享4篇的paper notes,涉及到如何提高所生成对话的流畅度和多样性,使得对话系统能够更加接近人类的对话.4篇paper如下: