多模态小组阅读笔记精选 | 每周一起读 #7

本期精读文章

An Empirical Study of Language CNN for Image Captioning

文章来源

https://arxiv.org/abs/1612.07086

推荐理由


本篇论文提出了用 CNN 模型来对单词序列进行表达,该 CNN 的输入为之前时刻的所有单词,进而可以抓住对生成描述很重要的历史信息。其中总体架构如下图所示:

该模型主要由四部分组成,用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,用于结合 CNN_I 和 CNN_L 信息的多模态层 M,和一个用于单词序列预测的递归神经网络。

 

总体过程如下:首先利用 CNN_I 提取图像特征,然后 CNN_L 利用之前时刻生成的单词对当前的单词信息进行表达,然后通过多模态层结合图像和单词信息,最后将融合的信息作为递归神经网络的输入来预测一下时刻的单词.该文与之前通过 one-hot 向量,然后经过词嵌入提取词向量的表达方法不同,利用了 CNN 网络来表达单词信息,进而能够很好的抓住过去的历史信息,用于指导当前时刻单词的生成。

多模态小组阅读笔记精选



>>>Gaolz<<<

个人认为这篇文章的总体思路沿用了目前的 encoder-decoder 的形式,decoder 仍然使用 LSTM、GRU,encoder 改为 CNN + language CNN 的 fusion layer。虽然没有提到目前比较火的 attention model,但我觉得和 attention model 的中一些形式有异曲同工之妙。

>>>XC3<<<

本文把 temporal cnn 用在 language 模型上很有创意,效果也很好,文章方法描述和训练过程写得也很详细,收获良多。

>>>ddguoll<<<

本文的创新点主要在于提出了 Language CNN,感知范围较 RNN 广一些,是一个很好的应用。但是,CNN 中的层次信息在哪里体现,在文中体现得不多。

>>>dengdan<<<

multimodal fusion layer 的 \sigma(gv(V, W_V, b_V)) 已经可以组成一个新的 layer 了。 如何确定 table1 中加入 CNN_L 后得到的提升不是由于加了这个一个 layer? 感觉应该修改或加一个对照组: 在原模型上也加一个 multimodal fusion layer, 但 fy() 的输出全为 0, 也就是说加入:m = \sigma(gv(V))。

多模态小组优质Q & A

rwanglanguage CNN 是这篇文章的核心。可是这一核心的 description 我很 confusing。(1)每一层的输出只有一个 feature map? (2) y_i^{l-1} and y_i^{l}是 row vector or column vector? (3) 'location i' 是 matrx 的哪一维?(4)w_L^{l}的 dimension size 是多少?与 y_i^{l-1}相乘时两者的维度是否 consistent?(5) w_L^{l}好像包含了所有的在 layer l 上的 kernal parameters。这里到底有多少个 kernal,每个 kernal size 是多大?(6)为什么每一层的输出的其中一个维度的大小都是 K?


xmyqsh:1)我也没找到关于输出的 feature map 的个数的描述,但是分析一下,feature map 的个数也就是 channel 数,这里的输入 channel 显然是 1,输入的 channel 数根据算法需要也应该是 1,至于 CNN_L 中间层的 channel 数就可以实验一下怎么设置合适了,我猜作者所有层的 channel 都设置成 1 了吧?(也就是每层都输出一个 feature map) 2)y^{l}是 M^{l} * K 维的,其中 K 是 word embedding 的维度,M^{l}的定义文章没有给出,应该就是第 l 层输出的一个 feature map 的维度,所以 y_i{l}是 row vector 3)location i 显然是 M^{l} 这一维的 4)w_L^{l} 的维度应该是 1 * kernelsize(不考虑 channel 数的话), 这里 eq。(7) 应该有问题,其中的 y_i{l-1} 应该改成 y{l-1}[i-kernelsize/2 : i+kernelsize/2] 5) 有多少个 feature map 就需要多少个 kernel, 文章没有讲需要多少个 feature map(或 kernel), kernel size 实验部分有讲,前两层 CNN kernel size 是 5, 后两层是 3 6)K 是 word embedding 的维度,这个必须保持不变才能不管怎么经过 CNN 的变换,元素都在 word embedding 的空间上。

XC3:我也尝试答一记, 如有问题请 @guijiuxiang 同学指正。@xmyqsh 同学答案很好了。 1. 本文中描述推断 feature map 是 1,但即便不是 1 也没关系,最后可以再 combine。2. \bold{y^(l-1)} 和 \bold{y^(l|) 都应该是 matrix,文中也提了属于 R^(M_l * K) , M_(l) 就是自定义的 neuron 数目。y_i^(l) 都是列向量,就是 i 个 neuron with dim size K。3. 就是 M_l * K 的第 i 行转置。 4. w_L^{l} 是一个 kernel, size 是 L,只要 L<16 应该就是可以的。 公式(7)里我觉得, 作者可能无意漏写了一个滑动卷积的过程,也就是说 M_l = M_(l-1) - sliding_window(L) + 1,当然如果是 valid padding 的话。5. w_L^{l}就是第 lth 层上的 kernel,下标 L,我猜可能是 size 吧。6. 这个 cnn 是 1D 的,他希望 model 字间上在 embedding 空间的关系, 所以他要保持 embedding 空间不能变。

pandabro不知道作者有没有试过 end to end training?


gujiuxiang:没有试过,在训练时,首先利用 vgg-16 train language model,最后的结果是 fine-tune cnn (vgg-16) 的,可以看做 end-to-end。


xmyqsh:提到 transfer learning,要先明确三个定义,假设空间、样本空间、目标函数,目标函数由目标准则(比如交叉熵、KL 散度)和假设空间以及样本空间共同决定,这三者变一个,最优解都会变。我们把 vgg 从 imageNet transfer 到 image caption 的数据集,就是样本空间的改变导致了目标函数的变化,进而导致最优解的改变。 再说 VGG 和 ResNet,他们就是上面说的假设空间了,也可以叫模型(带参数)。不同假设空间可以不同程度的描述样本空间。 ResNet 实际是受到了 VGG 的启发,做更深的网络,并且解决了深层网络不好训练的问题。从结构上看,两者最终输出的 featuremap 大小一样,但是 ResNet 输出的 channel 数比 VGG 大了两倍(2048 vs 512),所以光从输出看,ResNet 的表达应该更丰富。 再看内部结构,ResNet 除了 shortcut,前两层 conv 的特殊处理,内部的 channel 数也比 VGG thin,导致 ResNet 需要拟合的参数量比 VGG 少(虽然 ResNet 网络结构复杂,更费显存),模型容量比 VGG 要小,并且比 VGG 容易训练,所以 ResNet 更不容易过拟合,另外 FLOPS 低,也更高效(不考虑网络结构对 GPU 加速影响的话)。 所以我觉得在假设空间的选择上,ResNet 应该全面压制 VGG,至于 GoogleNet,模型容量太小,表达能力不够丰富,更适合做分类,不好 finetune。 我觉得大家用 VGG 应该是因为在非分类任务上 VGG 比 GoogleNet 表现好,并且 VGG 简单,大家都用,好比较结果。而且这个任务的主要矛盾不是图片特征的提取,而是图片描述的生成。大家关注的重点在图片描述上。 总的来说,这个任务上 ResNet-50 或者 101 应该有更好的表现,大家可以试试。


yuliuhong论文中作者提到 CNN_L 能够对句子的 hierarchical structure 建模,这个 hierarchical structure 表现的是句子的什么特征?句子语法结构特征?


xmyqsh:看了一下,文章里没有明确的 hierarchical structure 的定义。但是,CNN_L 这种多卷积层的结构所捕捉的信息就是 hierarchical structure,这在 CNN 处理图像的问题的时候很有用,可以提高感受野。在 CNN_L 中,多层的一维卷积同样可以对应出感受野的概念。感受野的物理意义就是单个点能够关联上下文信息的范围。比如,用一层核大小为 5 的卷积层,得到的感受野是 5,后面再加一个核大小为 5 的卷积层,感受野就提高到 9 了。 我觉得,CNN_L 的使用,能有效提高对历史信息的感知,这是 RNN 甚至 LSTM 都不能够很好做到的。


jamiechoi这里把 y 设为定长的目的是不是为了最后得到定长的输出呢?就是说跟传统 CNN 固定图像输入大小的目的类似?我这样理解对吗?


gujiuxiang:是的,(1)CNN 的输入 window size 是固定的,所以我们设置成固定大小;(2)mscoco 的数据库我们在 prepro 时采用截断,最大 16。所以 window size=16。

来源:paperweekly

原文链接

时间: 2024-08-18 03:12:39

多模态小组阅读笔记精选 | 每周一起读 #7的相关文章

知识图谱小组阅读笔记精选 | 每周一起读 #6

本期精读文章 Neural Relation Extraction with Selective Attention over Instances 论文链接 https://aclweb.org/anthology/P/P16/P16-1200.pdf 推荐理由 本文为清华刘知远老师组里的工作,使用了 attention 去衡量关系抽取的时候当前句子和当前关系的匹配程度,比较好的删选了远程监督候选句子中和当前关系无关的句子,从而提高了性能. 知识图谱小组阅读笔记精选 >>>karis&l

Chatbot专题阅读小组 | 每周一起读 #08

继 知识图谱.多模态 和 GAN 小组相继成立后,从本周起,PaperWeekly 将针对交流群内呼声最高的聊天机器人(Chatbot)方向组建专题阅读小组, 在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具. 如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:) 上周阅读笔记精选 GAN ▼ Beyond Face Rotation: Global and Local Percepti

QA专题阅读小组 | 每周一起读 #09

从本周起,PaperWeekly 将针对机器阅读理解和传统 QA 方向组建专题阅读小组, 在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具. 如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:) 上周阅读笔记精选 Chatbot ▼ Deep Reinforcement Learning for Dialogue Generation >>>chris<<< 作

GAN专题阅读小组 | 每周一起读 #05

从本周起,PaperWeekly 将针对最近大热的生成式对抗网络(GAN)组建专题阅读小组, 在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,并为大家提供可撰写读书笔记和在线协同讨论的阅读工具. 如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:) GAN小组招募 本期「每周一起读」,我们将一起精读下文并发起协同交流.参与者需具备生成式对抗网络(GAN)方向的研究背景,活动细则详见文末. Beyond Face Rotation: Gl

如何生成主题相关的对话 | 每周一起读 #11

Topic Aware Neural Response Generation 对话生成是一个非常热门的研究方向,通过 Seq2Seq 来生成与某个主题相关的对话,让整个对话内容的信息量更大.相关性更强,是一个非常有意思的研究思路.本文的工作给出了一些不错的想法.以下是Chatbot 专题阅读小组中的各位同学对本文的解读和讨论. 此外,PaperWeekly 将于今天正式成立自动文摘和统计学习专题阅读小组,在组内发起「每周一起读」活动.我们将每周选定一篇优质文章,邀请国内外行业大咖和高校大牛入驻讨

KBQA: 基于开放域知识库上的QA系统 | 每周一起读

KBQA: Learning Question Answering over QA Corpora and Knowledge Bases 本文在开放域知识库基础上构建 QA 系统.针对目前 QA 系统常用的规则只能理解规则内固定问题模式,而基于关键字或基于同义词的方法不能完全理解问题,提出一种基于亿级知识库和百万级 QA 语料库的模板.结合问题中实体,知识库谓词,问题的表达形式等,从而得到问题的语义,并与知识库中RDF三元组映射. 论文链接: http://www.vldb.org/pvldb

Attention is All You Need | 每周一起读

Attention Is All You Need 通常来说,主流序列传导模型大多基于 RNN 或 CNN.Google 此次推出的翻译框架-Transformer 则完全舍弃了 RNN/CNN 结构,从自然语言本身的特性出发,实现了完全基于注意力机制的 Transformer 机器翻译网络架构. 论文链接:https://arxiv.org/pdf/1706.03762.pdf 开源实现 #Chainer# https://github.com/soskek/attention_is_all_

基于新标注模式的实体和关系联合抽取方法 | 每周一起读

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类:一类是串联抽取方法.另一类是联合抽取方法. 串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体

SIGIR2017 满分论文:IRGAN | 每周一起读

IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models 在现代信息检索领域一直是两大学派之争的局面.一方面,经典思维流派是假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程.另一方面,现代思维流派则充分利用机器学习的优势,将文档和搜索词联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签. 本篇 SIGIR2017 的满分论文则首次提出将两方