Dynamic Entity Representation with Max-pooling Improves Machine

本文是机器阅读理解系列的第六篇文章,paper的题目是Dynamic Entity Representation with Max-pooling Improves Machine Reading,作者是来自日本东北大学的老师Sosuke Kobayashi,文章发表在NAACL HLT 2016。本文的代码开源在Github

本文模型之前的模型都是用一个静态的向量来表示一个entity,与上下文没有关系。而本文最大的贡献在于提出了一种动态表示entity(Dynamic Entity Representation)的模型,根据不同的上下文对同样的entity有不同的表示。

模型还是采用双向LSTM来构建,这时动态entity表示由四部分构成,包括两个方向上的hidden state,以及表示该entity所在句子的last hidden state,也就是该entity所在的上下文表示。如下图所示:

计算出entity的动态表示之后,通过attention mechanism计算得到query与每个entity之间的权重,然后计算每个entity在document和query条件下的概率,找到最终的answer。

query向量的计算与动态entity计算过程类似,这里需要填空的地方记作placeholder,也是包括四个部分,其中两个是表示placeholder上下文的last hidden state,另外两个是表示placeholder的hidden state。

模型的整个计算过程就是这样。如果遇到一个entity在document中出现多次的情况,该entity就会会有不同的表示,本文采用CNN中常用的max-pooling从各个表示中的每个维度获取最大的那一个组成该entity最终的表示,这个表示包括了该entity在document中各种context下的信息,具有最全面的信息,即原文中所说的accumulate information。如下图:

本文的实验在CNN数据上对模型进行了对比,效果比之前的Attentive Reader好很多,验证了本文的有效性。(当然结果没法和GA Reader比)

最后,作者给出了一个example,来说明用max-pooling的作用,见下图:

由于用了max-pooling模型比起不用它的话,可以关注到第二句和第三句话,因为本文模型可以捕捉到entity0(Downey)和entity2(Iron Man)是关联的(Robert Downey Jr.是Iron Man的扮演者),然后就会注意到entity2出现过的几个句子,而不仅仅是query中entity0出现过的几个句子,这一点帮助了模型找到了最终的正确答案entity26(在第二句中)。

本文模型的一个好玩之处在于用了一种变化的眼光和态度来审视每一个entity,不同的context会给同样的entity带来不同的意义,因此用一种动态的表示方法来捕捉原文中entity最准确的意思,才能更好地理解原文,找出正确答案。实际体会中,我们做阅读理解的时候,最简单的方法是从问题中找到关键词,然后从原文中找到同样的词所在的句子,然后仔细理解这个句子最终得到答案,这种难度的阅读理解可能是四、六级的水平,再往高一个level的题目,就需要你联系上下文,联系关键词相关联的词或者句子来理解原文,而不是简单地只找到一个句子就可以答对题目。本文的动态表示正是有意在更加复杂的阅读理解题目上做文章,是一个非常好的探索。

另外,如何衡量阅读理解语料中题目的难度?是否可以按难度分类进行对比测试?如果说现在最好的系统可以做到75%左右的正确率,是否可以给出一些更加有难度的题目来做?比如英语考试中真正的阅读理解或者完形填空。不同的模型具有不同的特点,可以考虑用不同难度的题目来验证模型的适用性。

本文是这个系列文章在本周的最后一篇单文,周末的时间会整理出本周分享的模型的思路、研究动机和实验结果等各个方面来写一篇综述文章,对机器阅读理解这个点进行一个较系统地总结,敬请期待!(后续还会继续关注这个方向,读更多的paper来分享)

来源:paperweekly

原文链接

时间: 2025-01-21 02:05:25

Dynamic Entity Representation with Max-pooling Improves Machine的相关文章

关于深度学习(deep learning)的常见疑问 --- 谷歌大脑科学家 Caffe缔造者 贾扬清

问答环节 问:在finetuning的时候,新问题的图像大小不同于pretraining的图像大小,只能缩放到同样的大小吗?" 答:对的:) 问:目前dl在时序序列分析中的进展如何?研究思路如何,能简单描述一下么答:这个有点长,可以看看google最近的一系列machine translation和image description的工作. 问:2个问题:1.目前Caffe主要面对CV或图像的任务,是否会考虑其它任务,比如NLP?2.如果想学习Caffe代码的话,能给一些建议吗?答:Caffe的

QA Systems and Deep Learning Technologies – Part 2

Introduction This is the second article in a two part series about QA Systems and Deep Learning. You can read part 1 here. Deep Learning is a subfield of machine learning, and aims at using machines for data abstraction with the help of multiple proc

LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型

本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果.如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络(convolutional neural network, CNN)有一定的了解,可以直接看摘要和LSF-SCNN创新与技术实现部分.如果能启发灵感,应用于更多的现实场景中带来效果提升,那才是这篇文章闪光的时刻.如果你没有接触过NLP和CNN,也不在担心,可以从头到尾听我娓娓道来.有任何问题,欢迎交流. 1. 摘要

基于深度学习的智能问答

作者:周小强 陈清财 曾华军 1引言 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自动问答系统较以往任何时候都显得离实际应用更近.这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得益于维基百科等大规模知识库以及海量网络信息的出现.然而,现有的自动问答系统所面临的问题远没有完全解决.事实上,无论是业界应用还是学术研究,问句的真实意图分析.问句

为什么要用深度学习?

为何深层学习 深层学习开启了人工智能的新时代.不论任何行业都害怕错过这一时代浪潮,因而大批资金和人才争相涌入.但深层学习却以 "黑箱" 而闻名,不仅调参难,训练难,"新型" 网络结构的论文又如雨后春笋般地涌现,使得对所有结构的掌握变成了不现实.我们缺少一个对深层学习合理的认识. 神经网络并不缺少新结构,但缺少一个该领域的 很多人在做神经网络的实验时会发现调节某些方式和结构会产生意想不到的结果.但就我个人而言,这些发现并不会让我感到满足.我更关心这些新发现到底告诉我们

深度学习变革视觉实例搜索

雷锋网按:本文作者邓启力,哈尔滨工业大学深圳研究生院计算机系硕士研究生二年级,导师为"鹏城学者"徐勇教授.研究兴趣为深度学习与计算机视觉.曾获2015年首届阿里巴巴大规模图像搜索大赛二等奖,总排名第三名. 摘要 近些年,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息.本文对基于深度学习的视觉实例搜索方法做了简单的总结和概括,希望能给读者们带来启发. 前言 给定一张包含某个物体的查询图片,视觉实例搜索的任务就是从候

Neural Attention Model for Abstractive Sentence Summarization

本周开始分享自动文摘相关的paepr,今天分享的一共有两篇.其中一篇是A Neural Attention Model for Abstractive Sentence Summarization,另一篇是Abstractive Sentence Summarization with Attentive Recurrent Neural Networks,两篇文章都出自于Harvard NLP组,两篇是姊妹篇,第二篇是第一篇的升级版,所以要结合着读,对比着分析. 世上没有什么所谓的银弹,每种方法

(转)The Neural Network Zoo

  转自:http://www.asimovinstitute.org/neural-network-zoo/     THE NEURAL NETWORK ZOO POSTED ON SEPTEMBER 14, 2016 BY FJODOR VAN VEEN   With new neural network architectures popping up every now and then, it's hard to keep track of them all. Knowing all

PaperWeekly 第37期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

" slvher 助理来也后端/算法工程师  目前研发方向为多轮对话系统 问答系统可以基于规则实现,可以基于检索实现,还可以通过对 query 进行解析或语义编码来生成候选回复(如通过解析 query并查询知识库后生成,或通过 SMT 模型生成,或通过 encoder-decoder 框架生成,有些 QA 场景可能还需要逻辑推理才能生成回复).   具体到检索式问答系统,其典型场景是:1)候选集先离线建好索引:2)在线服务收到 query 后,初步召回一批候选回复:3)matching 和 ra