从本周起,PaperWeekly 将针对机器阅读理解和传统 QA 方向组建专题阅读小组, 在组内发起「每周一起读」活动。我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具。
如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:)
上周阅读笔记精选
Chatbot
▼
Deep Reinforcement Learning for Dialogue Generation
>>>chris<<<
作者使用了三种回报方法衡量生成的对话合理性。第一种,使用 seq2seq 模型计算由生成的对话产生之前统计的一些无聊的回答的概率,概率越高,回报越少。这个防止聊天很快被终止。第二种,衡量生成的对话的信息量,通过计算该对话与前一个对话的相似性,越相似,回报越少。第三种,语法上的联系,这点非常重要,以保证生成的对话符合正常语法逻辑的。分别通过 seq2seq 模型计算输入之前的对话内容生成该对话的概率和历史数据计算之前对话产生当前对话的概率共同决定回报。最后作者将这三种回报函数按照一定的权值结合起来作为最终模型的回报函数。
>>>xwzhong<<<
paper 想通过引入 RL 机制来解决使用 seq2seq 做对话系统时遗留的难题,如通用性回复较多。在具体实现中,作者首先使用 seq2seq 方法 pre-train 一个 base 模型,最后使用 RL 机制,以两个 agent 互相对话最终得到的 reward 来调整 base model 的参数。 comment: 1. 使用 RL 的过程很清晰,定义了 RL 机制涉及到的 action,state,policy,reward,可以当做 RL 的简单应用学习; 2. 纵观全文,训练结果的好坏取决于 reward 公式的设计;在 paper 中,Ease of answer 设计有以偏概全的嫌疑(你不能直接说 many of these responses are likely to fall into similar regions in the vector space,需要更科学的解释或证明); 3. 文章使用 RL 机制时,有种“为了实现对话特点而设计”,从个人角度观点出发,更应该从“对话目的”角度来设计,而且,简单的使用 RL 机制来实现对话存疑。
>>>taoxuaner<<<
作者的主要工作是用于解决多轮对话中生成无意对话,最终导致对话难以进行下去的问题。(记得百度的严睿在 2016 的 IJCAI 还是 SIGIR 上有这方面的工作,具体哪个忘了)。作者认为一个好的对话系统应该具有 forward-looking、interactive、informationtive 以及 coherent 四个方面的特性。为此,他们在 agent 对话生成中引入 reinforcement learning,他们依次构建了 Ease of answering 、information flow、semantic coherence 三个 reward function 分别衡量生成对话的合理性。
GAN
▼
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
>>>yangampere<<<
GAN 的问题是 imposing no restrictions on the manner in which the generator may use this noise,解决方法是用了分成两部分的 Structured noise vector:(i) z, which is treated as source of incompressible noise; (ii) c, which we will call the latent code and will target the salient structured semantic features of the data distribution. 其中第二部分会有 trivial code,解决方法是用互信息。但互信息 is hard to maximize directly as it requires access to the posterior P (c|x),所以在第 5 节找到了 lower bound,公式 6 是最终的公式。在多种数据集上实验,不同数据集上的 latent code 数量不同,证明了不同数量的 latent code 模型都很好。遗憾的是我没有看到文章介绍如何针对不同数据集确定 latent code 的数量,也不知道故意 latent code 过量、不足会发生什么。
>>>yivan<<<
Driving question of unsupervised learning: learning something about some underlying probability distribution p(x) based on random samples {X} from it. What is the "something" and what is the "value" to be extracted? IMHO, it is the representation of the data. It might be in a more coarse-grained space (in the case of clustering, every data point is represented by a discrete cluster centroid, though detailed information is lost), or, it can convey almost equivalent information about the original data (this is what VAE or GAN mean to do). I think the reasons we want to work with the representation of the data instead of the original one is two-fold: one reason is out of consideration for data compressing, abstracted version of data might be more useful than all details when dealing with e.g. nature images, sound, speech, and text; the other reason is, the "representation space" is usually much easier to deal with and we can do more things on that space such as sampling, inference and reasoning, measuring the semantic distance, etc. I think the unsupervised learning method represents the aspect of "abstraction" in human intelligence. Therefore, it may not be applicable in some tasks that aim to utilize all details in the data.
>>>weiuniverse<<<
标准的生成对抗网络中,会忽视隐变量 c 的作用,而在 info-GAN 中则需要强化隐变量 c 的作用,使得 c 能够直接代表生成的变量的某一方面的属性,所以需要让隐变量与生成的变量 G(z,c) 拥有尽可能多的共同信息。因此引入了信息论的观点,定量表达共有信息为 I(c;G(z,c)), 并且在生成器网络的训练中通过调整使得这个量最大化。
知识图谱
▼
Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions
>>>huangchao<<<
本文提出了一种加入 sentence-level attention 和 entity description 的 CNN 模型(APCNN)来解决限定域的关系抽取问题。该模型分为两个模块:PCNNs 模块和 Sentence-level Attention 模块,其中,PCNNs 模块将句子的 word embedding 和 position embedding 连接作为输入,通过卷积和 piecewise max-pooling 操作得到句子级别的特征向量;Sentence-level Attention 模块输入一个 bag 中所有句子的句子级别特征向量和 bag 对应的关系的向量(通过两个实体的向量相减得到),通过匹配来学到不同句子的权重。本文的方法有两个亮点:一是通过 sentence-level attention 可以充分利用能够表示关系的信息,二是通过引入 entity description 背景知识来更好的对实体进行向量化表示。实验采用了 held-out 评估和人工评估两种方式,结果表明本文的方法相比一系列的 baseline 方法可以得到更高的准确率。
>>>cuixiankun<<<
关系提取这块儿我是个门外汉,简述下我对该模型理解和一点疑惑,该模型主要分三部分,APCNN(算是 sentence 的 embedding 层),Sentence-level Attention(带有 attention 机制的分类层)和 Entity Description(描述语句的 embedding 层)。作者将关系提取作为分类处理,那么应该会有几个候选的关系类别对应了 softmax。将 bag 中的 sentences 通过 APCNN(embedding)处理后转换成对应的 vector,并通过 attention 机制进行 softmax 分类,这里训练的目标是使分类的准确率最大化。后面附加的 Entity Description 模型我不太理解, 其中训练使 Description vector 和 Entity vector 尽可能接近我没疑问,但使这样的训练附加到前面分类模型的训练中就会使效果更好吗?感觉上面的分类模型和 Description 模型是相互独立的,即使后面公式看到他们两个进行训练目标的整合,也感觉不到 Description 的训练会对分类的准确率产生什么影响啊。想知道作者是怎么考虑将这两个训练目标进行相加整合的。
>>>zhuanxu<<<
此处 attention 的重点就是挑选出 bag 中哪些句子对于要识别的 relation 的权重大,而权重的计算算法则是由上面的一个公式 3,4 给出,公式 3 是说每个句子是占总的分量,而式子 4 则是一个全连接操作。
多模态
▼
Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions
>>>pandabro<<<
从图像和语言数据里学一个 joint embedding 自然可以更好地表示图像的 semantics,因而 summarization 的结果会更加 intuitive。
>>>Daeyeon7<<<
这里对于 visual features 和 vision-language embedding 的处理方式应该是方法中的重点部分,但就从文章的介绍中看来,除了计算 cosine 相似度,其他地方和一般 multimodel 没有什么区别。
>>>sophieag<<<
想问一下,之前的方法只由 visual feature 求与中心点的最近。这篇文章加入了 vison-language 模型,是不是只加入了图文间关系?没有在 visual only 的地方用图文模型的 embedding 图像特征呢? 在 2.2 中不是写的是 L2 距离算图文相似么?
来源:paperweekly