Gated-Attention Readers for Text Comprehension

完形填空一直是各大英语考试的常见题型,读一篇短文,填20个空。那么如果是机器来做完形填空,该如何来定义问题,提出模型呢?本周开始将会介绍一系列文本理解的模型。本文分享的题目是Gated-Attention Readers for Text Comprehension,最早于6月5日submit于arxiv上,作者是CMU的Graduate Research Assistant Bhuwan Dhingra。

首先,介绍一下对完形填空问题的定义。问题可以表述为一个三元组(d,q,a),这里d是指原文document,q是指完形填空的问题query(这里需要注意一点的是,与我们英语考试中的完形填空不同,更像是只用一个单词来回答的阅读理解),a是问题的答案。这个答案是来自一个固定大小的词汇表A中的一个词。即:给定一个文档-问题对(d,q),从A中找到最合适的答案a。

本文精彩的部分有两个,一个是related work写的非常漂亮,另一个是提出了一种新的注意力模型GA(Gate-Attention) Reader,并且取得了领先的结果。

下面来介绍本文的模型,结合下图来看:

step 1 document和query通过一个Lookup层,使得每个词都表示成一个低维向量。

step 2 将document中的词向量通过一个双向GRU,将两个方向的state做拼接获得该词的新表示。同时也将query通过一个双向GRU,用两个方向上的last hidden state作为query的表示。

step 3 将document中每个词的新表示与query的新表示逐元素相乘得到下一个GRU层的输入。

step 4 重复step 2和3,直到通过设定的K层,在第K层时,document的每个词向量与query向量做内积,得到一个最终的向量。

step 5 将该向量输入到softmax层中,做概率归一化。

step 6 因为document中有重复出现的词,聚合之后得到最终的分类结果,即确定应该填哪个词。

模型的计算流程还是很好理解的,下面给出一些可视化的attention结果。

图中高亮的部分是针对问题时的最后一层注意力所关注的地方。

注意力模型是一个非常热门的研究领域,很多专家都看好其在今后各大nlp任务中的应用前景,不同版本、不同结构、不同层次的注意力模型丰富了模型,也提升了效果。注意力的本质就是说你关注的输出与你的输入中的哪个元素关系更加紧密,即输出的部分应该更加注意哪个输入细节,在做完形填空、阅读理解的时候,我们也会有这样的感受,就是题目的答案往往就在某一句话或某几句话当中,并不需要回答每个问题都从全文中找一遍答案,而是定位到关键句上。这里的定位就是注意力,剩下的问题就是研究如何更加准确地定义、建模注意力,是用普通的前馈神经网络,还是用GRU,还是用分层模型都需要针对具体问题的特点。

后续的几篇文章将会继续介绍文本理解,敬请关注。

来源:paperweekly

原文链接

时间: 2024-09-20 04:07:33

Gated-Attention Readers for Text Comprehension的相关文章

A Thorough Examination of CNN/Daily Mail Reading Comprehension

本篇是reading comprehension系列的第三篇,文章于2016年6月9号submit在arxiv上,比之前介绍的Gated-Attention Readers for Text Comprehension更晚地出现,但尴尬的是本文的模型结果不如GA Reader.6月7号submit的一篇Iterative Alternating Neural Attention for Machine Reading,用了和GA非常类似的方法,得到了稍微差一点的结果.确实最近在arxiv上常常可

(转)注意力机制(Attention Mechanism)在自然语言处理中的应用

  注意力机制(Attention Mechanism)在自然语言处理中的应用   本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html      近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,本人最近也学习了一些基于attention机制的神经网络在自然语言处理(NLP)领域的论文,现在来对attention在NLP中的应用进行一个总

THE GOLDILOCKS PRINCIPLE: READING CHILDREN’S BOOKS WITH EXPLICIT

本文是机器阅读理解系列的第五篇文章,将会分享的题目是THE GOLDILOCKS PRINCIPLE: READING CHILDREN'S BOOKS WITH EXPLICIT MEMORY REPRESENTATIONS,作者是来自剑桥大学的博士生Felix Hill,本文的工作是在Facebook AI Research完成的,文章最早于2016年4月1日submit在arxiv上,后来发表在ICLR 2016会议上. 本文的贡献主要是两点:一是构建了一个新的语料,Children's

Attention and Augmented Recurrent Neural Networks

Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain   SHAN CARTERGoogle Brain   Sept. 8 2016   Citation: Olah & Carter, 2016   Recurrent neural networks are one of the staples of deep learning, allowing neural networks to work wi

PaperWeekly 第38期 | SQuAD综述

" 胡明昊 国防科学技术大学博士生 SQuAD比赛第三名 研究方向为自动问答系统 1. 引言 教机器学会阅读是近期自然语言处理领域的研究热点之一,也是人工智能在处理和理解人类语言进程中的一个长期目标.得益于深度学习技术和大规模标注数据集的发展,用端到端的神经网络来解决阅读理解任务取得了长足的进步.本文是一篇机器阅读理解的综述文章,主要聚焦于介绍公布在 SQuAD(Stanford Question Answering Dataset)榜单上的各类模型,并进行系统地对比和总结. 2. SQuAD简

PaperWeekly 第二十六期 --- 2016年最值得读的NLP paper解读(3篇)+在线Chat实录

引言 本期Chat是PaperWeekly第一次尝试与读者进行互动交流,一共分享和解读3篇paper,均选自2016年最值得读的自然语言处理领域paper,分别是: End-to-End Reinforcement Learning of Dialogue Agents for Information Access Dual Learning for Machine Translation SQuAD: 100,000+ Questions for Machine Comprehension o

Teaching Machines to Read and Comprehend

昨天的文章text comprehension系列的第一篇,是最近刚刚submit的文章,今天分享一篇去年的文章,也是一篇非常经典的文章.我记得Yoshua Bengio在Quora Session一个问题中推荐这篇文章.本文的题目是Teaching Machines to Read and Comprehend,作者是来自Google DeepMind的科学家Karl Moritz Hermann,是Oxford的博士后,两家机构的合作好多,很多文章都是一起写的. 本文的贡献主要有两点:一是提

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理初学者在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏览记录 1.google deepmind :Look, Listen and Learn 多信息融合感觉很厉害 2.The Weizmann Institute of Science:Non-Uniform Blind Deblurring by Reblurring 非均匀盲模糊 3.中科大(微软

Haskell ghci中如何调用pandoc的API进行markdown转换

所用环境:Windows Server 2008 + ghc 7.6.3(Haskell Platform 2013.2.0.0自带的) + pandoc 1.12.4 操作步骤: 1. 安装Haskell Platform,下载地址:http://www.haskell.org/platform/. 2. 安装pandoc,安装命令:cabal install pandoc 3. 在命令行中运行ghci 4. 引用pandoc的相应模块,在Prelude命令提示符中运行: :module Te