QA专题阅读小组 | 每周一起读 #09

从本周起,PaperWeekly 将针对机器阅读理解和传统 QA 方向组建专题阅读小组, 在组内发起「每周一起读」活动。我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具。

如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:)

上周阅读笔记精选


Chatbot

Deep Reinforcement Learning for Dialogue Generation

>>>chris<<<

作者使用了三种回报方法衡量生成的对话合理性。第一种,使用 seq2seq 模型计算由生成的对话产生之前统计的一些无聊的回答的概率,概率越高,回报越少。这个防止聊天很快被终止。第二种,衡量生成的对话的信息量,通过计算该对话与前一个对话的相似性,越相似,回报越少。第三种,语法上的联系,这点非常重要,以保证生成的对话符合正常语法逻辑的。分别通过 seq2seq 模型计算输入之前的对话内容生成该对话的概率和历史数据计算之前对话产生当前对话的概率共同决定回报。最后作者将这三种回报函数按照一定的权值结合起来作为最终模型的回报函数。

>>>xwzhong<<<

paper 想通过引入 RL 机制来解决使用 seq2seq 做对话系统时遗留的难题,如通用性回复较多。在具体实现中,作者首先使用 seq2seq 方法 pre-train 一个 base 模型,最后使用 RL 机制,以两个 agent 互相对话最终得到的 reward 来调整 base model 的参数。 comment: 1. 使用 RL 的过程很清晰,定义了 RL 机制涉及到的 action,state,policy,reward,可以当做 RL 的简单应用学习; 2. 纵观全文,训练结果的好坏取决于 reward 公式的设计;在 paper 中,Ease of answer 设计有以偏概全的嫌疑(你不能直接说 many of these responses are likely to fall into similar regions in the vector space,需要更科学的解释或证明); 3. 文章使用 RL 机制时,有种“为了实现对话特点而设计”,从个人角度观点出发,更应该从“对话目的”角度来设计,而且,简单的使用 RL 机制来实现对话存疑。 

>>>taoxuaner<<<

作者的主要工作是用于解决多轮对话中生成无意对话,最终导致对话难以进行下去的问题。(记得百度的严睿在 2016 的 IJCAI 还是 SIGIR 上有这方面的工作,具体哪个忘了)。作者认为一个好的对话系统应该具有 forward-looking、interactive、informationtive 以及 coherent 四个方面的特性。为此,他们在 agent 对话生成中引入 reinforcement learning,他们依次构建了 Ease of answering 、information flow、semantic coherence 三个 reward function 分别衡量生成对话的合理性。


GAN


InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

>>>yangampere<<<

GAN 的问题是 imposing no restrictions on the manner in which the generator may use this noise,解决方法是用了分成两部分的 Structured noise vector:(i) z, which is treated as source of incompressible noise; (ii) c, which we will call the latent code and will target the salient structured semantic features of the data distribution. 其中第二部分会有 trivial code,解决方法是用互信息。但互信息 is hard to maximize directly as it requires access to the posterior P (c|x),所以在第 5 节找到了 lower bound,公式 6 是最终的公式。在多种数据集上实验,不同数据集上的 latent code 数量不同,证明了不同数量的 latent code 模型都很好。遗憾的是我没有看到文章介绍如何针对不同数据集确定 latent code 的数量,也不知道故意 latent code 过量、不足会发生什么。

>>>yivan<<<

Driving question of unsupervised learning: learning something about some underlying probability distribution p(x) based on random samples {X} from it. What is the "something" and what is the "value" to be extracted? IMHO, it is the representation of the data. It might be in a more coarse-grained space (in the case of clustering, every data point is represented by a discrete cluster centroid, though detailed information is lost), or, it can convey almost equivalent information about the original data (this is what VAE or GAN mean to do). I think the reasons we want to work with the representation of the data instead of the original one is two-fold: one reason is out of consideration for data compressing, abstracted version of data might be more useful than all details when dealing with e.g. nature images, sound, speech, and text; the other reason is, the "representation space" is usually much easier to deal with and we can do more things on that space such as sampling, inference and reasoning, measuring the semantic distance, etc. I think the unsupervised learning method represents the aspect of "abstraction" in human intelligence. Therefore, it may not be applicable in some tasks that aim to utilize all details in the data.

>>>weiuniverse<<<

标准的生成对抗网络中,会忽视隐变量 c 的作用,而在 info-GAN 中则需要强化隐变量 c 的作用,使得 c 能够直接代表生成的变量的某一方面的属性,所以需要让隐变量与生成的变量 G(z,c) 拥有尽可能多的共同信息。因此引入了信息论的观点,定量表达共有信息为 I(c;G(z,c)), 并且在生成器网络的训练中通过调整使得这个量最大化。

知识图谱


Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions

>>>huangchao<<<

本文提出了一种加入 sentence-level attention 和 entity description 的 CNN 模型(APCNN)来解决限定域的关系抽取问题。该模型分为两个模块:PCNNs 模块和 Sentence-level Attention 模块,其中,PCNNs 模块将句子的 word embedding 和 position embedding 连接作为输入,通过卷积和 piecewise max-pooling 操作得到句子级别的特征向量;Sentence-level Attention 模块输入一个 bag 中所有句子的句子级别特征向量和 bag 对应的关系的向量(通过两个实体的向量相减得到),通过匹配来学到不同句子的权重。本文的方法有两个亮点:一是通过 sentence-level attention 可以充分利用能够表示关系的信息,二是通过引入 entity description 背景知识来更好的对实体进行向量化表示。实验采用了 held-out 评估和人工评估两种方式,结果表明本文的方法相比一系列的 baseline 方法可以得到更高的准确率。

>>>cuixiankun<<<

关系提取这块儿我是个门外汉,简述下我对该模型理解和一点疑惑,该模型主要分三部分,APCNN(算是 sentence 的 embedding 层),Sentence-level Attention(带有 attention 机制的分类层)和 Entity Description(描述语句的 embedding 层)。作者将关系提取作为分类处理,那么应该会有几个候选的关系类别对应了 softmax。将 bag 中的 sentences 通过 APCNN(embedding)处理后转换成对应的 vector,并通过 attention 机制进行 softmax 分类,这里训练的目标是使分类的准确率最大化。后面附加的 Entity Description 模型我不太理解, 其中训练使 Description vector 和 Entity vector 尽可能接近我没疑问,但使这样的训练附加到前面分类模型的训练中就会使效果更好吗?感觉上面的分类模型和 Description 模型是相互独立的,即使后面公式看到他们两个进行训练目标的整合,也感觉不到 Description 的训练会对分类的准确率产生什么影响啊。想知道作者是怎么考虑将这两个训练目标进行相加整合的。

>>>zhuanxu<<<

此处 attention 的重点就是挑选出 bag 中哪些句子对于要识别的 relation 的权重大,而权重的计算算法则是由上面的一个公式 3,4 给出,公式 3 是说每个句子是占总的分量,而式子 4 则是一个全连接操作。

多模态


Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions

>>>pandabro<<<

从图像和语言数据里学一个 joint embedding 自然可以更好地表示图像的 semantics,因而 summarization 的结果会更加 intuitive。

>>>Daeyeon7<<<

这里对于 visual features 和 vision-language embedding 的处理方式应该是方法中的重点部分,但就从文章的介绍中看来,除了计算 cosine 相似度,其他地方和一般 multimodel 没有什么区别。 

>>>sophieag<<<

想问一下,之前的方法只由 visual feature 求与中心点的最近。这篇文章加入了 vison-language 模型,是不是只加入了图文间关系?没有在 visual only 的地方用图文模型的 embedding 图像特征呢? 在 2.2 中不是写的是 L2 距离算图文相似么?

来源:paperweekly

原文链接

时间: 2024-09-22 22:38:05

QA专题阅读小组 | 每周一起读 #09的相关文章

Chatbot专题阅读小组 | 每周一起读 #08

继 知识图谱.多模态 和 GAN 小组相继成立后,从本周起,PaperWeekly 将针对交流群内呼声最高的聊天机器人(Chatbot)方向组建专题阅读小组, 在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具. 如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:) 上周阅读笔记精选 GAN ▼ Beyond Face Rotation: Global and Local Percepti

GAN专题阅读小组 | 每周一起读 #05

从本周起,PaperWeekly 将针对最近大热的生成式对抗网络(GAN)组建专题阅读小组, 在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具. 如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:) GAN小组招募 本期「每周一起读」,我们将一起精读下文并发起协同交流.参与者需具备生成式对抗网络(GAN)方向的研究背景,活动细则详见文末. Beyond Face Rotation: Gl

如何生成主题相关的对话 | 每周一起读 #11

Topic Aware Neural Response Generation 对话生成是一个非常热门的研究方向,通过 Seq2Seq 来生成与某个主题相关的对话,让整个对话内容的信息量更大.相关性更强,是一个非常有意思的研究思路.本文的工作给出了一些不错的想法.以下是Chatbot 专题阅读小组中的各位同学对本文的解读和讨论. 此外,PaperWeekly 将于今天正式成立自动文摘和统计学习专题阅读小组,在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,邀请国内外行业大咖和高校大牛入驻讨

知识图谱小组阅读笔记精选 | 每周一起读 #6

本期精读文章 Neural Relation Extraction with Selective Attention over Instances 论文链接 https://aclweb.org/anthology/P/P16/P16-1200.pdf 推荐理由 本文为清华刘知远老师组里的工作,使用了 attention 去衡量关系抽取的时候当前句子和当前关系的匹配程度,比较好的删选了远程监督候选句子中和当前关系无关的句子,从而提高了性能. 知识图谱小组阅读笔记精选 >>>karis&l

多模态小组阅读笔记精选 | 每周一起读 #7

本期精读文章 An Empirical Study of Language CNN for Image Captioning 文章来源 https://arxiv.org/abs/1612.07086 推荐理由 本篇论文提出了用 CNN 模型来对单词序列进行表达,该 CNN 的输入为之前时刻的所有单词,进而可以抓住对生成描述很重要的历史信息.其中总体架构如下图所示: 该模型主要由四部分组成,用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,用于结合 CNN_I 和 CNN_L 信息

KBQA: 基于开放域知识库上的QA系统 | 每周一起读

KBQA: Learning Question Answering over QA Corpora and Knowledge Bases 本文在开放域知识库基础上构建 QA 系统.针对目前 QA 系统常用的规则只能理解规则内固定问题模式,而基于关键字或基于同义词的方法不能完全理解问题,提出一种基于亿级知识库和百万级 QA 语料库的模板.结合问题中实体,知识库谓词,问题的表达形式等,从而得到问题的语义,并与知识库中RDF三元组映射. 论文链接: http://www.vldb.org/pvldb

阅读星APP语音读小说设置教程分享

给各位阅读星软件的使用者们来详细的解析分享一下语音读小说的设置教程. 教程分享: 1.首先我们需要安装一个语音合成引擎,推荐讯飞语音,合成人声效果相当不错. 2.用阅读星打开任意小说,点击屏幕中部,弹出菜单之后,点击左侧耳机图标   3.然后小说就会自动开始朗读了,同样的我们可以点击屏幕中部进行更多的朗读设置,或者点击左侧悬浮按钮暂停或结束朗读.   好了,以上的信息就是小编给各位阅读星的这一款软件的使用者们带来的详细的语音读小说的设置教程解析分享的全部内容了,各位看到这里的软件使用者们,小编相

马化腾:微信公众号付费阅读有一些误读

昨日,全国人大代表.腾讯公司董事长兼首席执行官马化腾举行媒体沟通会,发布两会建议并回答记者提问.当记者问及腾讯是否计划加快推出微信公众号的付费阅读,马化腾表示有一些误读.以下是他们关于公众号付费阅读的访谈内容. 记者问:腾讯是否计划加快推出微信公众号的付费阅读?在互联网免费模式仍然占主流的今天,微信的付费阅读是否能够真的走得通?知识付费的春天是否真的到了? 马化腾:其实我当初在朋友圈回复朋友回答,后来被截了图传出去的.有一些误读,有些人骂说公众号怎么还收费了?这个就跟当年讲微信收费一样是谣传.其

深入研究Clang(八) Clang代码阅读之打log读流程1

这个过程简单的分为几步. 第一步:写一个简单的小程序,hello.c.内容如下: #include<stdio.h> int main() {  printf("Hello world!\n");} 第二步:找出如何在LLVM里面输出信息,最后选择采用llvm::errs(),等于采用了LLVM的错误机制.包括llvm::errs()所需的头文件.具体内容如下: //shining add begin#include "llvm/Support/raw_ostre