AttSum: Joint Learning of Focusing and Summarization with...

最近读的几篇paper都是用seq2seq的思路来解决问题,有点读厌烦了,今天换个口味。分享一篇extractive式的paper,AttSum: Joint Learning of Focusing and Summarization with Neural Attention,AttSum是本文所阐述的摘要系统的名称。 (点“阅读原文”获取本文)

Abstract

基于查询的抽取式文本摘要系统通常需要解决好相关性和显著性两个方面的任务,但一般的系统通常将两者分开考虑。而本文将两个任务合并考虑。本文的算法可以自动学习sentence和document cluster的embedding,并且当查询给定之后,可以应用注意力机制来模拟人类阅读行为。算法的有效性在DUC基于查询的文本摘要任务中进行了验证,得到了有竞争力的结果。

本文是将最近比较火的注意力模型应用到了extractive文摘系统中,同时也用了sentence embedding来解决语义层面的相关性问题,并没有像之前的文章在改动seq2seq+attention的细节上做文章,而是切换到了另外一种思路上。


Introduction

基于查询的文本摘要系统一般应用于多文档摘要任务,既需要考虑摘要中句子的相关性,又要考虑句子的显著性,相关性反应了文档的主题思想,显著性避免了重复和冗余。很长一段时间,逻辑斯特回归是解决这类问题的热门方法,但是类似的大多数的监督学习方法都是将两个问题分开考虑,通过一些feature对相关性和显著性分开打分排序。但是人在写摘要的时候,往往会将相关性和显著性合并起来考虑。

另外,相关性打分的方法也存在弊端,用类似TF-IDF的指标来打分有时并不能得到非常相似的结果,尽管可能匹配到了核心词,但检索出的结果并不一定可以满足用户的要求。

用深度学习的技术来表示feature,会比用简单的feature去打分排序更加科学,将两个指标融合在一个模型中解决文本摘要问题将会是一个不错的方案。本文提出了一个名叫AttSum的文摘系统,联合了相关性和显著性两个指标。

注意力模型已经成功应用在学习多模态对齐问题中,也可以借鉴到本问题当中。人类总是会将注意力放在他们query的东西上面。

本文在DUC2005-2007基于查询的文摘任务中进行了验证测试,在没有使用任何人为feature的情况下,获得了有竞争力的结果。本文的贡献有两点:

1、应用了注意力机制在基于查询的文摘任务中。

2、提出了一种联合查询相关性和句子显著性的神经网络模型。

相关性的打分问题是搜索引擎的基本问题,传统的方案是用一些简单的feature,比如TF-IDF来打分排序,但经常会得不到满意的结果,原因在于feature太过肤浅,并没有考虑语义层面的东西,换句话说并没有真正理解用户需要查什么。当然,有一段时间推荐系统扮演着搜索引擎助手的角色,当一个用户通过留下一些蛛丝马迹给网站,网站就会给他做一些个性化的推荐来辅助搜索引擎,但并不能从根本上解决这个问题。于是本文用了sentence embedding,document embedding来解决这个问题,就像当初的word embedding 一样,将语义映射到一个空间中,然后计算距离来测量相关性。


Query-Focused Sentence Ranking

AttSum系统一共分为三层:

1、CNN Layer,用卷积神经网络将句子和query映射到embedding上。

2、Pooling Layer,用注意力机制配合sentence embeddings构造document cluster embeddings。

3、Ranking Layer,计算sentence和document cluster之间的相似度,然后排序。

CNN Layer

这一层的输入是用word embeddings构造的sentence matrix,然后在该矩阵上用一个卷积filter,之后再应用一个max pooliing获取到features,得到输出。

这个方法非常简单,是一个典型的CNN的应用,需要注意的是filter的宽度和词向量的宽度一致,看起来和n-gram类似,但是用了卷积神经网络来捕捉sentence matrix中的最大特征。将变长的句子都统一映射到同一个空间中,为后续计算相似度提供了极大的方便。


Pooling Layer

这一层用sentence embedding加权求和来得到document cluster embedding。首先计算句子和query的相关性:

这里的相关性计算和相似度是两回事,其中M矩阵是一个tensor function,可以用来计算sentence embedding和query embedding之间的相互影响,两个相同的句子会得到一个较低的分数。然后加权求和得到document cluster embedding:

这里,sentence embedding扮演两个角色,既是pooling项,又是pooling权重。一方面,如果一个句子与query高度相关,则权重会很大;另一方面,如果一个句子在文档中是显著的,该句子的embedding也应被表示在其中。

本文强调了attention机制在Rush等人的工作中依赖于手工feature,不是那么自然地模拟人类的注意力,而本文是真正地无干预地在模拟人类的注意力。

感觉这一层的模型中只有M比较神秘一些,但整体来说思路还是非常简单,sentence表示出来了,document用sentence加权求和的方式来表示。只是说权重的计算方法很玄乎,还鄙视了其他人在用attention机制时并不自然。

Ranking Layer

打分排序层同样简单,用了余弦公式来计算sentence和document之间的相似度。在训练的过程中用了pairwise ranking strategy,选择样本的时候,用了ROUGE-2计算了所有句子的score,高分的作为正样本,低分的作为负样本。

根据pairwise ranking的标准,相比于负样本,AttSum应该给正样本打出更高的分数,因此损失函数定义如下:

训练方式采用mini-batch SGD。

排序层也没什么特别的地方,用了最简单的余弦公式来计算相似度,通过结对排序的方法,先用ROUGE-2指标将所有的句子进行了打分,高分的句子作为正样本,低分的作为负样本,构造损失函数,让正样本的分数尽可能高,负样本的分数尽可能低。


Sentence Selection

本文在选择句子时采用了一种类似于MMR的简单贪婪算法(MMR在之前的博客中有介绍)。具体过程如下:

1、去掉少于8个词的句子。因为摘要不可能少于8个词。

2、用之前计算好的score对所有的句子进行降序排列。

3、迭代地将排名靠前的且不冗余的句子添加到队列中。这里的冗余定义为该句子相比进入队列的句子有更新的内容。

具体算法流程如下:

句子的选择算法几乎就是MMR,也是一种贪心的思路。不同的地方在于对冗余的定义不如MMR,MMR是用当前句子与已经在队列中的句子的相似度作为冗余判断,其实这样更加科学。


Experiments

Dataset

数据集用DUC2005-2007三年的数据,用两年的数据作为训练集,一年的数据作为测试集。

Model Setting

CNN层:50维词向量,用gensim实现,训练过程中不更新词向量,窗口尺寸选择2,即2-gram,和ROUGE-2保持一致,句子向量维度用5-100进行试验,最终用50作为句子向量维度。

Evaluation Metric

评价指标用ROUGE-2。

Baselines

使用了之前成绩不错的MultiMR和SVR系统作为baselines,同时为了验证本文模型的有效性,构造了一个ISOLATION系统,单独考虑相关性和显著性。

Summarization Performance

对比结果看下图:

整体来看本文的算法结果具有竞争性,但没有绝对竞争性。训练数据用ROUGE-2指标做了预处理分析,目标函数也是朝着ROUGE-2最大的方向,最后的评价指标也是ROUGE-2,在DUC2005和2006上很容易出现过拟合的情况,比其他结果表现好也是正常情况。整体感觉模型的效果很一般。


Review

本文用了CNN+word embedding来表示sentence,然后将sentence vector加权求和作为document vector,通过将sentence和document映射到同一空间中,更容易在语义层上计算相似度。CNN之前多用于CV领域,后来在NLP中也应用了起来,尤其是各种各样的sentence classification任务中。在这个层面上将deep learning应用到了extractive summarization中,与之前seq2seq的paper有着本质的区别。整体来看,本文并没有太出众的创新点和突出的结果,反倒是提到了Attention机制,但并没有从模型体现地很充分,所以有炒概念的嫌疑。将文本中表示文本的方法应用在seq2seq的encoder部分,是本文的一种扩展和未来要做的工作。


来源:paperweekly

原文链接

时间: 2024-08-31 13:11:14

AttSum: Joint Learning of Focusing and Summarization with...的相关文章

AttSum: Joint Learning of Focusing and Sum with Neural Attention

最近读的几篇paper都是用seq2seq的思路来解决问题,有点读厌烦了,今天换个口味.分享一篇extractive式的paper,AttSum: Joint Learning of Focusing and Summarization with Neural Attention,AttSum是本文所阐述的摘要系统的名称. 本文用了CNN+word embedding来表示sentence,然后将sentence vector加权求和作为document vector,通过将sentence和d

PaperWeekly 第十二期---文本摘要

引 文本摘要是自然语言处理的一大经典任务,研究的历史比较长.随着目前互联网生产出的文本数据越来越多,文本信息过载问题越来越严重,对各类文本进行一个"降维"处理显得非常必要,文本摘要便是其中一个重要的手段.传统的文本摘要方法,不管是句子级别.单文档还是多文档摘要,都严重依赖特征工程,随着深度学习的流行尤其是seq2seq+attention模型在机器翻译领域中的突破,文本摘要任务也迎来了一种全新的思路.本期PaperWeekly将会分享4篇在这方面做得非常出色的paper: 1.A Ne

Semi-supervised Sequence Learning

之前分享过几篇有监督的sentence表示方法,比如Recurrent Convolutional Neural Networks for Text Classification.Convolutional Neural Networks for Sentence Classification,也分享过很多几篇无监督的sentence表示方法,比如Distributed Representations of Sentences and Documents.Skip-Thought Vectors

(zhuan) Where can I start with Deep Learning?

Where can I start with Deep Learning? By Rotek Song, Deep Reinforcement Learning/Robotics/Computer Vision/iOS | 03/01/2017       If you are a newcomer to the Deep Learning area, the first question you may have is "Which paper should I start reading f

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理初学者在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏览记录 1.google deepmind :Look, Listen and Learn 多信息融合感觉很厉害 2.The Weizmann Institute of Science:Non-Uniform Blind Deblurring by Reblurring 非均匀盲模糊 3.中科大(微软

深度学习零基础进阶第四弹!|干货分享

编者按:时隔一段时间,雷锋网独家奉送的深度学习零基础进阶第四弹又来了!经过前面三篇文章的研究和学习,相信大家在深度学习的方式与深度学习在不同领域的运用都有了一定的了解.而本次雷锋网(公众号:雷锋网)所推荐的论文,主要集中于自然语言处理层面,相对于此前比较枯燥的理论阶段,相信以下的内容会更能让初学者们有的放矢.原文首发于 GitHub,作者 songrotek,文章名为<Deep-Learning-Papers-Reading-Roadmap>,雷锋网对每篇论文都增加了补充介绍,未经许可不得转载

126篇殿堂级深度学习论文分类整理 从入门到应用 | 干货

如果你有非常大的决心从事深度学习,又不想在这一行打酱油,那么研读大牛论文将是不可避免的一步.而作为新人,你的第一个问题或许是:"论文那么多,从哪一篇读起?" 本文将试图解决这个问题--文章标题本来是:"从入门到绝望,无止境的深度学习论文".请诸位备好道具,开启头悬梁锥刺股的学霸姿势. 开个玩笑. 但对非科班出身的开发者而言,读论文的确可以成为一件很痛苦的事.但好消息来了--为避免初学者陷入迷途苦海,昵称为 songrotek 的学霸在 GitHub 发布了他整理的深

PaperWeekly 第46期 | 关于远程监督,我们来推荐几篇值得读的论文

说起关系抽取,就不得不提远程监督(distant supervision),将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器.提到远程监督,下面的这篇工作就不得不提: [1] Distant supervision for relation extraction without labeled data  本文并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提

深度学习零基础进阶第四弹​|干货分享

雷锋网曾编译了<干货分享 | 深度学习零基础进阶大法!>系列,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)与深度学习如何应用在图片和语音识别上肯定也不在话下了.今天这一部分,我们将通过新一批论文,让你对深度学习在不同领域的运用有个清晰的了解.由于第三部分的论文开始向细化方向延展,因此你可以根据自己的研究方向酌情进行选择.雷锋网对每篇论文都增加了补充介绍.这一弹主要从自然语言处理以及对象检测两方面的应用进行介绍. 本文编译于外媒 github,原文标