PaperWeekly 第十二期---文本摘要

文本摘要是自然语言处理的一大经典任务,研究的历史比较长。随着目前互联网生产出的文本数据越来越多,文本信息过载问题越来越严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。传统的文本摘要方法,不管是句子级别、单文档还是多文档摘要,都严重依赖特征工程,随着深度学习的流行尤其是seq2seq+attention模型在机器翻译领域中的突破,文本摘要任务也迎来了一种全新的思路。本期PaperWeekly将会分享4篇在这方面做得非常出色的paper:

1、A Neural Attention Model for Abstractive Sentence Summarization, 2015
2、Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond, 2016
3、Neural Summarization by Extracting Sentences and Words, 2016
4、AttSum: Joint Learning of Focusing and Summarization with Neural Attention, 2016

1、A Neural Attention Model for Abstractive Sentence Summarization

作者

Rush, A. M., Chopra, S., & Weston, J.

单位

Facebook AI Research / Harvard SEAS

关键词

Neural Attention, Abstractive Sentence Summarization

文章来源

EMNLP 2015

问题

这篇来自Facebook的paper的主题是基于attention based NN的生成式句子摘要/压缩。

模型

该工作使用提出了一种encoder-decoder框架下的句子摘要模型。

作者在文章中介绍了三种不同的encoding方法,分别为:

  1. Bag-of-Words Encoder。词袋模型即将输入句子中词的词向量进行平均。
  2. CNN encoder
  3. Attention-Based Encoder。该encoder使用CNN对已生成的最近c(c为窗口大小)个词进行编码,再用编码出来的context向量对输入句子做attention,从而实现对输入的加权平均。

模型中的decoder为修改过的NNLM,具体地:

式中y_c为已生成的词中大小为c的窗口,与encoder中的Attention-Based Encoder同义。

与目前主流的基于seq2seq的模型不同,该模型中encoder并未采用流行的RNN。

数据

该文章使用了English Gigaword作为语料,选择新闻中的首句作为输入,新闻标题作为输出,以此构建平行语料。具体的数据构建方法参见文章。此外,该文章还使用了DUC2004作为测试集。

简评

在调研范围内,该文章是使用attention机制进行摘要的第一篇。且作者提出了利用Gigaword构建大量平行句对的方法,使得利用神经网络训练成为可能,之后多篇工作都使用了该方法构建训练数据。

2、Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

作者

Nallapati, Ramesh, et al.

单位

IBM Watson

关键词

seq2seq, Summarization

文章来源

In CoNLL 2016

问题

该工作主要研究了基于seq2seq模型的生成式文本摘要。
该文章不仅包括了句子压缩方面的工作,还给出了一个新的文档到多句子的数据集。

模型

该文章使用了常用的seq2seq作为基本模型,并在其基础上添加了很多feature:

  1. Large Vocabulary Trick。
    参见Sébastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2014. On using very large target vocabulary for neural machine translation. CoRR, abs/1412.2007.
  2. 添加feature。例如POS tag, TF、IDF, NER tag等。这些feature会被embed之后与输入句子的词向量拼接起来作为encoder的输入。
  3. pointing / copy 机制。使用一个gate来判断是否要从输入句子中拷贝词或者使用decoder生成词。参见ACL 2016的两篇相关paper。
  4. Hierarchical Attention。这是用于文章摘要中多句子的attention,思路借鉴了Jiwei Li的一篇auto encoder的工作。大致思路为使用句子级别的weight对句子中的词进行re-scale。

数据

  1. English Gigaword
  2. DUC 2004
  3. 提出了CNN/Daily Mail Corpus

简评

该工作为在第一篇文章基础上的改进工作,做了大量的实验,非常扎实。文章提出的feature-rich encoder对其他工作也有参考意义,即将传统方法中的特征显式地作为神经网络的输入,提高了效果。

3、Neural Summarization by Extracting Sentences and Words

作者

Cheng, Jianpeng, and Mirella Lapata.

单位

University of Edinburgh

关键词

Extractive Summarization, Neural Attention

文章来源

ACL 2016

问题

使用神经网络进行抽取式摘要,分别为句子抽取和单词抽取。

模型

句子抽取

由于该工作为文档的摘要,故其使用了两层encoder,分别为:

  1. 词级别的encoder,基于CNN。即对句子做卷积再做max pooling从而获得句子的表示。
  2. 句子级别的encoder,基于RNN。将句子的表示作为输入,即获得文档的表示。

由于是抽取式摘要,其使用了一个RNN decoder,但其作用并非生成,而是用作sequence labeling,对输入的句子判断是否进行抽取,类似于pointer network。

词的抽取

对于词的抽取,该模型同样适用了hierarchical attention。与句子抽取不同,词的抽取更类似于生成,只是将输入文档的单词作为decoder的词表。

数据

从DailyMail news中根据其highlight构建抽取式摘要数据集。

简评

该工作的特别之处在于对attention机制的使用。该paper之前的许多工作中的attention机制都与Bahdanau的工作相同,即用attention对某些向量求weighted sum。而该工作则直接使用attention的分数进行对文档中句子进行选择,实际上与pointer networks意思相近。

4、AttSum: Joint Learning of Focusing and Summarization with Neural Attention

作者

Cao, Ziqiang, et al.

单位

The Hong Kong Polytechnic University, Peking University, Microsoft Research

关键词

Query-focused Summarization

文章来源

COLING 2016

问题

Query-focused多文档抽取式摘要

模型

由于该任务为针对某个query抽取出可以回答该query的摘要,模型使用了attention机制对句子进行加权,加权的依据为文档句子对query的相关性(基于attention),从而对句子ranking,进而抽取出摘要。具体地:

  1. 使用CNN对句子进行encoding
  2. 利用query,对句子表示进行weighted sum pooling。
  3. 使用cosine similarity对句子排序。

数据

DUC 2005 ∼ 2007 query-focused summarization benchmark datasets

简评

该文章的亮点之处在于使用attention机制对文档中句子进行weighted-sum pooling,以此完成query-focused的句子表示和ranking。

总结

本次主要介绍了四篇文本摘要的工作,前两篇为生成式(abstractive)摘要,后两篇为抽取式(extractive)摘要。对于生成式摘要,目前主要是基于encoder-decoder模式的生成,但这种方法受限于语料的获得,而Rush等提出了利用English Gigaword(即新闻数据)构建平行句对语料库的方法。IBM在Facebook工作启发下,直接使用了seq2seq with attention模型进行摘要的生成,获得了更好的效果。对于抽取式摘要,神经网络模型的作用多用来学习句子表示进而用于后续的句子ranking。

【查看链接请点阅读原文

广告时间

PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。

微信公众号:PaperWeekly

微博账号:PaperWeekly(http://weibo.com/u/2678093863 )
微信交流群:微信+ zhangjun168305(请备注:加群 or 加入paperweekly)

来源:paperweekly

原文链接

时间: 2024-12-02 20:08:39

PaperWeekly 第十二期---文本摘要的相关文章

(转)PaperWeekly 第二十二期---Image Caption任务综述

本文转自:http://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247484014&idx=1&sn=4a053986f5dc8abb45097fed169465fa&chksm=96e9ddeea19e54f83b717d63029a12715c238de8d6af261fa64af2d9b949480e685b8c283dda&scene=21#wechat_redirect   PaperWeekly 第二

PaperWeekly 第二十二期---Image Caption任务综述

引言 Image Caption是一个融合计算机视觉.自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字.该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系.除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子. 随着机器翻译和大数据的兴起,出现了Image Caption的研究浪潮.当前大多数的Image Caption方法基于encoder-decoder模型.其中encoder

PaperWeekly 第二十五期 --- 增强学习在image caption任务上的应用

引言 第二十二期的PaperWeekly对Image Captioning进行了综述.今天这篇文章中,我们会介绍一些近期的工作.(如果你对Image Captioning这个任务不熟悉的话,请移步二十二期PaperWeekly 第二十二期---Image Caption任务综述) Image Captioning的模型一般是encoder-decoder的模型.模型对$p(S|I)$进行建模,$S$是描述,$I$是图片.模型的训练目标是最大化log似然:$\max_\theta\sum_i \l

【知云】第十二期:处于风口浪尖上的直播视频网站,如何快速部署直播监管?

摘要:广电总局要求视频直播网站的视频内容保存两个月以上,针对于这样的要求,视频直播网站有没有简单快捷的部署方式呢?本文中阿里云布道师爅冉将与大家分享阿里云直播监管冷存储解决方案. 想要看视频版?请点击这里:[知云]直播监管 针对于视频直播网站监管存储的相关用户痛点,阿里云提供了对应的一整套解决方案,阿里云直播监管冷存储解决方案如下图所示. 2016年是视频直播元年,直播行业被推上了风口浪尖.广电总局要求视频直播网站的视频内容保存两个月以上,以备进行视频审核.因此各个视频直播平台需要建设从现有直播

开发者论坛一周精粹(第十二期):如何通过快照的瘦身和删除来节省储存费用

第十二期(2017年6月23日-2017年6月30日 ) 阿里云快照的帮助文档里面有一篇<删除快照和自动快照策略>,其实可以通过这个引导来达到节省费用的目的. 当您不再需要某个快照.或者快照个数超出额度的时候,您需要删除一部分快照释放空间. 如何通过快照的瘦身和删除来节省储存费用 Https://bbs.aliyun.com/read/320656.html 常见快照使用场景和如何最大限度降低快照费用 Https://bbs.aliyun.com/read/320654.html 码栈云机重定

第十二期百度技术沙龙:数据库架构与性能决定大型网站竞争力

中介交易 SEO诊断 淘宝客 云主机 技术大厅 云计算浪潮汹涌而至,来自四面八方的海量数据已呈爆炸之势,如何给前端用户提供稳定.顺畅.安全.高速的体验服务,这既要求后台数据库系统顺应业务模式的变革不断升级,又能满足数据量爆增所带来的各种存储.查询.分析.挖掘等各种需求. 2011年3月19日,由全球最大的中文搜索引擎百度公司主办的第十二期技术沙龙,在京仪大酒店隆重举行.此期技术沙龙将主题锁定在"大型网站数据库架构设计与性能优化"上,200多位来自各个行业和领域的数据库技术开发者汇聚于此

微媒体沙龙第十二期演讲稿整理 :论粉丝

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 西西讯:3721.html">2014年7月19日微媒体沙龙第十二期圆满落幕,沙龙在深圳创新谷咖啡厅举办,报名人数二百余人,参会人数一百余人,沙龙现场阳光灿烂,参会人员脸上洋溢着幸福的笑容:干货真多啊! 主讲人怪木西西,以其独特的视角,诡异的手法.高大上的思路与策略.接地气的比喻.举例.分享,获得了现场阵阵火辣辣的掌声.两个小

PaperWeekly 第十九期 --- 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)

引 本期的PaperWeekly一共分享四篇最近arXiv上发布的高质量paper,包括:情感分析.机器阅读理解.知识图谱.文本分类.人工智能及其相关研究日新月异,本文将带着大家了解一下以上四个研究方向都有哪些最新进展.四篇paper分别是: 1.Linguistically Regularized LSTMs for Sentiment Classification, 2016.11 2.End-to-End Answer Chunk Extraction and Ranking for Re

PaperWeekly 第二十三期 --- 机器写诗

引言 什么是艺术? 机器的作品能否叫艺术? 机器能否取代艺术家? 这些问题,相信不同的人,会有不同的答案.很多人认为机器生成的作品只是简单的模仿人类,没有创造性可言,但是人类艺术家,不也是从模仿和学习开始的吗?本文是一篇机器诗歌生成的综述文章,希望能增进大家对这个领域的了解. 基于传统方法的诗歌生成 诗歌是人类文学皇冠上的明珠.我国自<诗经>以后,两千年来的诗篇灿若繁星.让机器自动生成诗歌,一直是人工智能领域一个有挑战性的工作.机器诗歌生成的工作,始于20世纪70年代.传统的诗歌生成方法,主要