本篇将会分享的是一篇工程性比较强的paper,如果您想做一个实实在在的意见摘要系统(比如:淘宝商品评论摘要、电影评论摘要)的话,可以仔细研读下本文的解决方案。本文的题目是Neural Network-Based Abstract Generation for Opinions and Arguments,于6月9日submit于arxiv上。作者是来自美国东北大学的Lu Wang助教。
关于自动文摘,之前写过一系列的文章,包含了自动文摘的方方面面以及近期的一些相关paper的详细描述。本文的自动文摘问题是一个多评论摘要问题,用的是abstractive方法,而非简单的extractive方法,就是说从多个评论中总结出观点。
本文模型的主题框架仍是seq2seq+attention,最主要的不同之处是输入包括多个文本序列,而是之前介绍的单文本序列。这里,seq2seq+attention的思路不再赘述,主要讲一下不同的地方。
为了套用seq2seq,本文将多文本拼接成单文本,中间用特殊的标记SEG隔开。但是如果只是简单的套用seq2seq的话,会存在以下两个问题:
1、seq2seq对序列的顺序非常敏感,多个文本排列的顺序对结果的影响比较大。
2、多篇评论包括的词会比较多,会导致在计算attention的时候花费更大的时间代价。
本文用了子采样(sub-sampling)的方法来解决上面的问题,首先给原始输入中的每个评论定义importance score,然后归一化,最后从原始输入中进行多项分布采样,获得K个候选sample作为seq2seq的输入数据,进行训练。本文针对importance score建立了一个回归模型,使用了一些人工feature作为输入进行回归打分。这些feature如下表所示:
包括了词的数量,命名实体的数量,tf-idf平均数和最大数等8个feature作为输入。通过学习这个回归模型,来计算给定评论的分数。
最后给大家展示一个结果图:
本文在模型上创新的点并不突出,最不同以往的地方便是用了人工feature来给每个评论打分,给原始输入中的评论进行排序,然后多项分布采样,子采样的过程是一个降维的过程,保留了原始数据中最重要的部分,去掉了冗余的信息。可以说本文是将人工features添加到abstractive来提升纯粹的seq2seq模型性能,针对了多文档摘要问题的特点,给出了一个实用性较强的思路。如果从模型角度来说,新的东西没有太多,而且可改进的地方有很多,比如打分模型,可以用sentence representation的思路来做,完全可以避免用人工feature这种比较low的思路,做成一个data-driven的打分模型;再比如,不用打分,而是采用CNN从多个评论中提取出最有用的feature作为输入。
来源:paperweekly