Attention-over-Attention Neural Networks for RC

本文分享的文章是arxiv前天刚刚新鲜出炉的paper,来自哈工大讯飞联合实验室。前不久,他们构建了一个大型阅读理解语料,今天也发布出来了。

Cloze-style Reading Comprehension这个领域竞争太过激烈了,半年时间把benchmark刷了一遍又一遍,今天的这篇paper又一次刷新了记录。如果对这个领域不太熟悉的话,可以读这篇教机器学习阅读

本文的模型被称作Attention over Attention(AoA),和之前的工作不同,不仅仅考虑query-to-document attention,而且考虑了document-to-query attention。模型架构示意图如下:

Contextual Embedding 将query和document都embedding化,用Bi-GRU将query和document分别encode,将两个方向的hidden state拼接起来作为该词的state,此时document和query可以分别用一个Dxd和Qxd的矩阵来表示,这里D是document的词数,Q是query的词数,d是embedding的维度。

Pair-wise Matching Score

这一步是本质上就是对两个矩阵做矩阵乘法,得到所谓的Matching Score矩阵M,这里的M矩阵的维度是DxQ,矩阵中的每个元素表示对应document和query中的词之间的matching score。

Individual Attentions 对M矩阵中的每一列做softmax归一化,得到所谓的query-to-document attention,即给定一个query词,对document中每个词的attention,本文用下式进行表示:

Attention-over-Attention 前三个步骤都是很多模型采用的通用做法,这一步是本文的亮点。首先,第三步是对M矩阵的每一列做了softmax归一化,这里对M矩阵的每一行做softmax归一化,即得到所谓的document-to-query attention,用下式来表示:

然后,将document-to-query attention作平均得到最终的query-level attention,如下式:

最后,用每个query-to-document attention和刚刚得到的query-level attention做点乘,得到document中每个词的score。

Final Predictions 将相同词的score合并,得到每个词的score,如下式:

从而得到最终的答案。

实验部分用了英文语料CNN和CBT,在没用pre-trained embedding情况下,单模型得到了state-of-the-art结果。

本文模型最大的特点就是不仅仅考虑query到document的attention,而且考虑了document到query的attention,即所谓的attention over attention,在Cloze-style阅读理解任务中取得了更好的结果。同时,作者在未来的工作中,准备将该模型拓展到其他任务中。

attention是一个非常好的机制,将很多任务的benchmark都提高到了很高的水平,是一个革命性的模型。围绕attention的变种做工作,提出各种各样的attention,虽然可以刷新各种任务,但终究不再能够将研究水平提升一个level,需要一个新的机制、新的思想来推动nlp的发展。

来源:paperweekly

原文链接

时间: 2024-08-05 23:59:47

Attention-over-Attention Neural Networks for RC的相关文章

(zhuan) Attention in Long Short-Term Memory Recurrent Neural Networks

Attention in Long Short-Term Memory Recurrent Neural Networks by Jason Brownlee on June 30, 2017 in Deep Learning   The Encoder-Decoder architecture is popular because it has demonstrated state-of-the-art results across a range of domains. A limitati

(zhuan) Attention in Neural Networks and How to Use It

Adam Kosiorek About Attention in Neural Networks and How to Use It  this blog comes from: http://akosiorek.github.io/ml/2017/10/14/visual-attention.html  Oct 14, 2017 Attention mechanisms in neural networks, otherwise known as neural attention or jus

Attention and Augmented Recurrent Neural Networks

Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain   SHAN CARTERGoogle Brain   Sept. 8 2016   Citation: Olah & Carter, 2016   Recurrent neural networks are one of the staples of deep learning, allowing neural networks to work wi

Sequence to Sequence Learning with Neural Networks

seq2seq+各种形式的attention近期横扫了nlp的很多任务,本篇将分享的文章是比较早(可能不是最早)提出用seq2seq来解决机器翻译任务的,并且取得了不错的效果.本文的题目是Sequence to Sequence Learning with Neural Networks,作者是来自Google的Ilya Sutskever博士(现在OpenAI).可以说这篇文章较早地探索了seq2seq在nlp任务中的应用,后续的研究者在其基础上进行了更广泛的应用,比如自动文本摘要,对话机器人

Consensus Attention-based Neural Networks for Chinese Reading

本文分享的是今天刚刚刷出的一篇paper,是研究阅读理解的同学们的福音,因为要放出新的而且是中文的数据集.本文的题目是Consensus Attention-based Neural Networks for Chinese Reading Comprehension,作者均来自哈工大讯飞联合实验室. 对于机器阅读理解的基本内容就不作介绍了,感兴趣的同学可以参考之前写的一篇摘要教机器学习阅读.本文最大的亮点在于构建了中文机器阅读语料,语料分为两个部分,一个是训练集和自测试集,一个是领域外的测试集

Convolutional Neural Networks for Sentence Classification

本篇将分享一个有监督学习句子表示的方法,文章是Convolutional Neural Networks for Sentence Classification,作者是Harvard NLP组的Yoon Kim,并且开源了代码 sent-conv-torch. 卷积神经网络(CNN)在计算机视觉中应用广泛,其捕捉局部feature的能力非常强,为分析和利用图像数据的研究者提供了极大额帮助.本文作者将CNN引用到了NLP的文本分类任务中. 本文模型架构图: 熟悉CNN结构的童鞋们看这个图就会非常眼

Hacker's guide to Neural Networks

PS:   许多同学对于机器学习及深度学习的困惑在于,数学方面已经大致理解了,但是动起手来却不知道如何下手写代码.斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程,手把手教你用Javascript写神经网络和SVM!!我还没怎么看... Hacker's guide to Neural Networks Hi there, I'm a CS PhD student at Stanford. I've worked on Deep Learning for

Multiresolution Recurrent Neural Networks: An Application to...

昨天介绍了一篇工程性比较强的paper,关于对话生成(bot)任务的,今天继续分享一篇bot方面的paper,6月2日刚刚submit在arxiv上.昨天的文章用了一种最最简单的端到端模型来生成对话,取得了不错的结果,而本文用了一种更加复杂的模型来解决这个问题,取得了更好的结果.文章的题目是Multiresolution Recurrent Neural Networks: An Application to Dialogue Response Generation,作者是来自蒙特利尔大学的博士

Recurrent Convolutional Neural Networks for Text Classification

介绍了CNN表示文本的模型之后,本篇将会分享一篇用CNN结合RNN的模型来表示文本.paper题目是Recurrent Convolutional Neural Networks for Text Classification,作者是来自中科院大学的来斯惟博士. 本文要解决的问题是文本分类,文本分类最关键的问题是特征表示,传统的方法经常会忽略上下文信息和词序,无法捕捉到词义.近几年随着深度学习的火热,研究者们通过借助神经网络模型来解决传统方法存在的问题.比如:Socher提出的Recursive