阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

本文讲的是阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入,


ICCV,被誉为计算机视觉领域三大顶级会议之一的、作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在今年的 ICCV 2017上有多篇论文入选。

本文是阿里iDST与西安电子科大、西安交大等合作的 ICCV 2017 论文解读《基于层次化多模态LSTM的视觉语义联合嵌入》(Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding),雷锋网AI科技评论做了不改动原意的编辑。

精准描述商品:计算机视觉和自然语言处理的联合

近年来, 随着深度学习技术的快速发展, 人们开始尝试将计算机视觉 (Vision) 和自然语言处理 (Language) 两个相对独立的领域联合起来进行研究, 实现一些在过去看来非常困难的任务,例如「视觉-语义联合嵌入 (Visual-Semantic Embedding)」。该任务需要将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中。这样,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。

视觉语义联合嵌入的一个典型应用就是图像标题生成(Image Captioning):对于任意输入的一张图像, 在空间中找到最匹配的一句话, 实现图像内容的描述。在电商场景下, 淘宝卖家在发布一件商品时, 该算法可以根据卖家上传得图片, 自动生成一段描述性文字, 供卖家编辑发布使用。再比如,视觉语义联合嵌入还可以应用于「跨模态检索 (Cross-media Retrieval)」:当用户在电商搜索引擎中输入一段描述性文字(如「夏季宽松波希米亚大摆沙滩裙」、「文艺小清新娃娃领飞飞袖碎花 A 字裙」等), 通过文字-图像联合分析, 从商品图像数据库中找到最相关的商品图像返回给用户。

之前的不足:只能嵌入较短的语句简单描述图片

以往的视觉语义联合嵌入方法往往只能对比较短的句子进行嵌入,进而只能对图像做简单而粗略的描述,然而在实际应用中,人们更希望得到对图像(或图像显著区域)更为细致精确的描述。如图 1 所示,我们不仅想知道谁在干什么,还想知道人物的外表,周围的物体,背景,时间地点等。

现有方法:「A girl is playing a guitar.」

我们提出的方法:「a young girl sitting on a bench is playing a guitar with a black and white dog nearby.」

图 1 现有方法的问题

为了实现这个目标,我们提出一个框架:第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子,如图 2 所示。

 

图 2 我们提出的框架

为此,我们在训练视觉语义联合嵌入模型时不仅需要将整个句子嵌入空间,更应该将句子中的各种描述性短语也嵌入空间。然而,以往的视觉语义联合嵌入方法通常采用循环神经网络模型(如 LSTM(Long short-term memory) 模型)来表示语句。标准的 LSTM 模型有一个链式结构(Chain structure):每一个单元对应一个单词,这些单词按出现顺序排成一列,信息从第一个单词沿该链从前传到最后,最后一个节点包含了所有的信息,往往用于表示整个句子。显然,标准的 LSTM 模型只适合表示整个句子,无法表示一句话中包含的短语,如图所示。

图 3 链式结构的问题

论文创新方法:提出层次化的 LSTM 模型

本文提出一种多模态、层次化的 LSTM 模型(Hierarchical Multimodal LSTM)。该方法可以将整个句子、句子中的短语、整幅图像、及图像中的显著区域同时嵌入语义空间中,并且自动学习出「句子-图像」及「短语-图像区域」间的对应关系。这样一来,我们生成了一个更为稠密的语义空间,该空间包含了大量的描述性的短语,进而可以对图像或图像区域进行更详细和生动的描述,如图所示。

 

图 4 本文提出的多模态层次结构

本文方法的创新性在于提出了一个层次化的 LSTM 模型,根节点对应整句话或整幅图像,叶子节点对应单词,中间节点对应短语或图象中的区域。该模型可以对图像、语句、图像区域、短语进行联合嵌入(Joint embedding),并且通过树型结构可以充分挖掘和利用短语间的关系(父子短语关系)。其具体网络结构如下图所示: 

图 5 网络结构

其中为每一个短语和对应的图像区域都引入一个损失函数,用于最小化二者的距离,通过基于结构的反向传播算法进行网络参数学习。

在图像-语句数据集上的比较

图 6 在 Flickr30K 数据集上的对比

图 7 在 MS-COCO 数据集上的对比

可见本文方法在几个公开数据集上都获得了很好的效果。

在图像区域-短语数据集上的对比

我们提供了一个带有标注的图像区域-短语数据集 MS-COCO-region,其中人工标定了一些显著性物体,并在这些物体和短语之间建立了联系。

图 8 在 MS-COCO-region 数据集上的对比

下图是我们方法的可视化结果,可见我们的短语具有很强的描述性。

此外,我们可以学习出图像区域和短语的对应关系,如下:






本文作者:奕欣

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-16 07:31:25

阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入的相关文章

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

精准描述商品:计算机视觉和自然语言处理的联合 近年来, 随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究, 实现一些在过去看来非常困难的任务,例如"视觉-语义联合嵌入(Visual-Semantic Embedding)".该任务需要将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中.这样,通过该空间中的近邻搜索可以实现图像和语句的匹配.检索等. 视觉语义联合嵌入的一个典型应用就是图

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域

本文讲的是从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域, 今秋,在以水城而闻名的威尼斯,来自世界各地的三千多位学者荟萃一堂,共赴两年一度的国际计算机视觉大会 (ICCV).这次大会的一个重要亮点就是中国学者的强势崛起.根据组委会公开的数字,会议 40% 的论文投稿来自中国的研究者.在中国的人工智能浪潮中,商汤科技以及它与港中文的联合实验室无疑是其中最有代表性的力量.在本届 ICCV 大会,商汤科技与香港中大-商汤科技联合实验室共发表了 20 篇论文,其中包括 3 篇 Oral

周博磊知乎热答:如何评价何恺明大神斩获ICCV 2017最佳论文

2017年10月24日下午,Facebook AI 研究员何恺明大神斩获ICCV 2017最佳论文,这是他第三次斩获顶会最佳论文,对于Kaiming He 在 ICCV 2017 上拿下双 Best的paper,他的中大同学,另一位大神周博磊在知乎写了一段他眼中的凯明师兄. 大数据文摘经周博磊授权,发布这篇文章,看看大神眼中的大神是什么样? 其实从他发Dark Channel那篇论文开始,我就挺关注他的研究工作.那时候还是前Deep Learning时代的计算机视觉,一切都还不怎么work,还流

《嵌入式Linux软硬件开发详解——基于S5PV210处理器》——导读

前言 嵌入式Linux软硬件开发详解--基于S5PV210处理器 近年来,嵌入式技术和嵌入式产品发展势头迅猛,其应用领域涉及通信产品.消费电子.汽车工业.工业控制.信息家电.国防工业等各个方面.嵌入式产品在IT产业以及电子工业的经济总额中所占的比重越来越大,对国民经济增长的贡献日益显著.随着智能手机.媒体播放器.数码相机和机顶盒等嵌入式产品的普及,嵌入式系统的知识在广大民众中的传播也越来越广泛.出于对嵌入式高科技知识的追求,广大在校学生纷纷选修嵌入式系统课程,以获得嵌入式系统的理论知识和开发技能

Alex Smola论文详解:准确稀疏可解释,三大优点兼具的序列数据预测算法LLA| ICML 2017

雷锋网 AI 科技评论按:近日,ICML2017收录的一篇论文引起了雷锋网AI科技评论的注意.这篇关于序列数据预测的论文是 Alex Smola 和他在 CMU 时的两个博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的,后者目前已经加入谷歌大脑. Alex Smola是机器学习界的重要人物,他的主要研究领域是可拓展算法.核方法.统计模型和它们的应用,已经发表超过200篇论文并参与编写多本学术专著.他曾在NICTA.雅虎.谷歌从事研究工作,在2013到2016年间任CMU教授

阿里云域名caa记录添加详解

本篇写于tiansir.com  原创文章 2017-12-9 CAA记录介绍 CAA,全称Certificate Authority Authorization,即证书颁发机构授权.它为了改善PKI(Public Key Infrastructure:公钥基础设施)生态系统强度.减少证书意外错误发布的风险,通过DNS机制创建CAA资源记录,从而限定了特定域名颁发的证书和CA(证书颁发机构)之间的联系.从此,再也不能是任意CA都可以为任意域名颁发证书了. 关于CAA记录,其实早在4年前便在RFC

详解基于javascript实现的苹果系统底部菜单_javascript技巧

(不好意,先前发布的是有误的分析.现在的这个没问提了!!!) 昨天看到了"妙味课堂"的一个苹果菜单的DEMO.根据里面提到的"勾股定理".我自己分析了一下代码.如下: 先来一效果图吧! 静止时: 鼠标滑动时: 一.要实现在的功能或效果: 在鼠标滑动的靠近其中某一张图片时,这个图片会随着鼠标向它的靠近而慢慢放大. a.是"放大"不是"变大".[放大]是等比例的,而[变大]:不一定是等比例.后面的公式中会体现. b.这里的[靠近]

港科大KDD 2017录用论文作者详解:基于异构信息网络元结构融合的推荐系统

在KDD 2017上,香港科技大学计算机系博士生赵欢作为第一作者的论文 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research track接收并做口头报告.经雷锋网 AI 科技评论邀请,赵欢为雷锋网独家供稿,分享了团队此项研究的核心思想.算法框架及实验结果. 作者介绍 本文主要介绍 KDD 2017 的一篇有关推荐系统的论文:「Meta-Graph Based Recomm

论文详解:滴滴大数据预测用户目的地,准确率超90% | KDD 2017

雷锋网 AI科技评论按:在KDD 2017中滴滴研究院副院长叶杰平所带的滴滴团队关于出租车组合优化分单模型和目的地预测的论文<A Taxi Order Dispatch Model based On Combinatorial Optimization>被收录.雷锋网(公众号:雷锋网)将对这篇论文进行详细解读. 论文解读 相比于在搜索引擎中找到一个想要的网页,在茫茫车潮中匹配到一辆载你去目的地的车辆会更加复杂.因为网页可以持续呈现一整天,甚至半个月:但车辆是高速移动的,乘客和司机的相对位置一直