【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

精准描述商品:计算机视觉和自然语言处理的联合

近年来, 随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究, 实现一些在过去看来非常困难的任务,例如“视觉-语义联合嵌入(Visual-Semantic Embedding)”。该任务需要将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中。这样,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。

视觉语义联合嵌入的一个典型应用就是图像标题生成(Image Captioning):对于任意输入的一张图像, 在空间中找到最匹配的一句话, 实现图像内容的描述。在电商场景下, 淘宝卖家在发布一件商品时, 该算法可以根据卖家上传得图片, 自动生成一段描述性文字, 供卖家编辑发布使用。再比如,视觉语义联合嵌入还可以应用于“跨模态检索(Cross-media Retrieval)”:当用户在电商搜索引擎中输入一段描述性文字(如“夏季宽松波希米亚大摆沙滩裙”、“文艺小清新娃娃领飞飞袖碎花A字裙”等), 通过文字-图像联合分析, 从商品图像数据库中找到最相关的商品图像返回给用户。

之前的不足:只能嵌入较短的语句简单描述图片

以往的视觉语义联合嵌入方法往往只能对比较短的句子进行嵌入,进而只能对图像做简单而粗略的描述,然而在实际应用中,人们更希望得到对图像(或图像显著区域)更为细致精确的描述。如图1所示,我们不仅想知道谁在干什么,还想知道人物的外表,周围的物体,背景,时间地点等。

现有方法:“A girl is playing a guitar.” 

我们提出的方法:“a young girl sitting on a bench is playing a guitar with a black and white dog nearby.

现有方法的问题

为了实现这个目标,我们提出一个框架:第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子,如图2所示。

图2 我们的提出的框架

为此,我们在训练视觉语义联合嵌入模型时不仅需要将整个句子嵌入空间,更应该将句子中的各种描述性短语也嵌入空间。然而,以往的视觉语义联合嵌入方法通常采用循环神经网络模型(如LSTM(Long short-term memory)模型)来表示语句。标准的LSTM模型有一个链式结构(Chain structure):每一个单元对应一个单词,这些单词按出现顺序排成一列,信息从第一个单词沿该链从前传到最后,最后一个节点包含了所有的信息,往往用于表示整个句子。显然,标准的LSTM模型只适合表示整个句子,无法表示一句话中包含的短语,如图所示。

 

图3 链式结构的问题

论文创新方法:提出层次化的LSTM模型

本文提出一种多模态、层次化的LSTM模型(Hierarchical Multimodal LSTM)。该方法可以将整个句子、句子中的短语、整幅图像、及图像中的显著区域同时嵌入语义空间中,并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系。这样一来,我们生成了一个更为稠密的语义空间,该空间包含了大量的描述性的短语,进而可以对图像或图像区域进行更详细和生动的描述,如图所示。

图4 本文提出的多模态层次结构

本文方法的创新性在于提出了一个层次化的LSTM模型,根节点对应整句话或整幅图像,叶子节点对应单词,中间节点对应短语或图象中的区域。该模型可以对图像、语句、图像区域、短语进行联合嵌入(Joint embedding),并且通过树型结构可以充分挖掘和利用短语间的关系(父子短语关系)。其具体网络结构如下图所示

图5 网络结构

其中为每一个短语和对应的图像区域都引入一个损失函数,用于最小化二者的距离,通过基于结构的反向传播算法进行网络参数学习。

在图像-语句数据集上的比较

图 6:在Flickr30K数据集上的对比

图 7在MS-COCO数据集上的对比

可见本文方法在几个公开数据集上都获得了很好的效果

在图像区域-短语数据集上的对比

我们提供了一个带有标注的图像区域-短语数据集MS-COCO-region,其中人工标定了一些显著性物体,并在这些物体和短语之间建立了联系。

图 8在MS-COCO-region数据集上的对比

下图是我们方法的可视化结果,可见我们的短语具有很强的描述性

此外,我们可以学习出图像区域和短语的对应关系,如下

原文发布时间为:2017-10-25

本文作者:牛振兴 周默 王乐 高新波 华刚

原文链接:【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

时间: 2024-10-07 19:20:38

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入的相关文章

阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

本文讲的是阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入, ICCV,被誉为计算机视觉领域三大顶级会议之一的.作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平.阿里巴巴在今年的 ICCV 2017上有多篇论文入选. 本文是阿里iDST与西安电子科大.西安交大等合作的 ICCV 2017 论文解读<基于层次化多模态LSTM的视觉语义联合嵌入>(Hierarchical Multimodal LSTM for Dens

如何让电脑成为看图说话的高手?计算机视觉顶会ICCV论文解读

ICCV,被誉为计算机视觉领域三大顶级会议之一.作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平.阿里巴巴在今年的大会上有多篇论文入选,本篇所解读的论文是阿里iDST与多家机构合作的入选论文之一,目标是教会机器读懂图片并尽量完整表达出来. 精准描述商品:计算机视觉和自然语言处理的联合 近年来,随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究,实现一些在过去看来非常困难的

城市大脑入选国家新一代人工智能开放创新平台,阿里iDST副院长华先胜技术解读

11月15日,科技部召开新一代人工智能发展规划暨重大科技项目启动会,公布了首批国家新一代人工智能开放创新平台名单,阿里云城市大脑与百度自动驾驶.腾讯医疗影像和讯飞智能语音入选. 阿里云城市大脑项目始于2016年,旨在以摄像头为核心进行数据采集与计算,对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的Bug,提升城市运行的效率和质量.现在,城市大脑已经成功落地杭州.苏州等地,解决了很多实际难题,并在2017杭州云栖大会上交出了一份漂亮答卷:经过一年测试,城市大脑成功接管了杭州128个信

阿里AAAI2018论文解读:轻量网络训练框架、GAN中文命名实体识别、英俄翻译等

1. 火箭发射:一种有效的轻量网络训练框架<Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net> [团队名称]阿里妈妈事业部 [作者]周国睿.范颖.崔润鹏.卞维杰.朱小强.盖坤 [论文简介]像点击率预估这样的在线实时响应系统对响应时间要求非常严格,结构复杂,层数很深的深度模型不能很好的满足严苛的响应时间的限制.为了获得满足响应时间限制的具有优良表现的模型,我们提

【阿里云资讯】新零售时代的双11移动技术亮剑 ——2016年阿里移动平台新技术解读

新零售时代的双11移动技术亮剑 截至24:00:00,2016天猫双11全球狂欢节总交易额1207亿,无线交易额占比81.87%,覆盖235个国家和地区.中国力量造就未来世界新经济体! 正如阿里巴巴集团CEO张勇早前剧透的2016年双11全新的趋势一样,"以互动为代表.直播为载体, 消费娱乐化将进行到底"在今年的双11移动端体现的尤为彻底.无论是预热期就以VR购物体验惊艳全球的Buy+会场,还是双11晚会推出"手机+电视+直播"的多屏互动,今年的双11全球狂欢节,不

游戏安全资讯精选 2017年第十八期:富控互动拟13.668亿收购棋牌游戏公司百搭网络51%股权,游戏市场的收入超2千亿,阿里云与中国电信云堤达成DDoS防护领域重大合作,阿里云云盾 · 云防火墙技术解读

[游戏行业安全动态]富控互动拟13.668亿收购棋牌游戏公司百搭网络51%股权 概要:富控互动发布公告,拟13.668亿收购百搭网络51%股权.百搭网络成立于2016年10月,是一家专注于开发.运营移动端棋牌游戏的互联网游戏公司.目前,百搭网络在线运营的主要游戏有阿拉宁波麻将.阿拉浙江麻将.阿拉血战麻将.阿拉舟山麻将.阿拉江西麻将.阿拉跑得快.阿拉干瞪眼.阿拉斗牛.阿拉玩三张等棋牌游戏. 百搭网络2016年总营收25.82万元,净利润1.25万元:2017年前三个季度总营收1.25亿元,净利润9

如何打造千万级Feed流系统?阿里数据库技术解读

2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒.支付峰值25.6万笔/秒.而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去.数据运营平台的主动服务,根据这些合并后的数据,实时的进行分析,进行实时的舆情展示,实时的找出需要主动服务的对象等,实现一个智能化的服务运营平台. 通过RDS PostgreSQL和HybridDB for PGSQL实时分析方案: 承受住了每秒几十万笔的写入吞吐并做数据清洗,是交易的数倍 实现分钟级延迟的实时分析

阿里AI Labs王刚解读9小时卖出百万台的“天猫精灵” | 高山大学(GASA)

*以下根据王刚2017年11月14日在高山大学(GASA)思享课II期的分享整理而成 在刚刚过去的"双十一"购物狂欢节中,短短9个小时之内"天猫精灵"智能音箱的销量突破了100万台,阿里掀起的这场价格战背后足以看出其对智能音箱市场的重视.在11月14日的高山大学(GASA)思享课II期,阿里巴巴人工智能实验室首席科学家王刚教授为在场学员解读了"天猫精灵"这款产品以及阿里巴巴在人机交互上的突破,同时还就商业变现.与阿里生态系统的衔接.用户体验.语音

阿里下一代数据库技术:把数据库装入容器不再是神话

回顾视频:http://yq.aliyun.com/webinar/play/220 张瑞,阿里集团数据库技术团队负责人,阿里巴巴研究员,Oracle ACE.双十一数据库技术总负责人,曾两次担任双十一技术保障总负责人.自2005年加入阿里巴巴以来,一直主导整个阿里数据库技术的不断革新. 近日,在京举行的2017中国数据库技术大会上,来自阿里巴巴集团研究员张瑞发表了题为<面向未来的数据库体系架构的思考>的主题演讲.主要介绍了阿里数据库技术团队正在建设阿里下一代数据库技术体系的想法和经验,希望能