基于对偶学习的跨领域图片描述生成

恰逢 CIKM 2017召开(2017 年 11 月 6 日,新加坡),AI 论道的第一篇文章主要介绍我们的被 CIKM 2017 收录的一篇文章:Dual Learning for Cross-Domain Image Captioning,这里只介绍了论文框架,细节请参照我们的论文。我们后续将 release 代码。

图片描述生成(image captioning)任务是结合 CV 和 NLP 两个领域的综合性任务,是一个跨学科跨模态的交叉性任务。其输入是一副图片,输出为对该图片进行描述的一段文字。这项任务要求模型可以识别图片的物体以及理解物体之间的关系,并用一句自然语言来表达。

应用场景:例如当用户拍了一张照片后,利用 image caption 技术为其匹配合适的文字,方便以后检索或省去用户手动配字等。此外,它还可以帮助视觉障碍者理解图片内容。

现在,许多科研团队和企业都参与来这个任务,包括 Google, IBM, Microsoft, 腾讯等。然而,这些团队主要在 MS COCO 数据集[1]上进行研究,并未考虑 cross-domain 的问题 (i.e., 训练数据与测试数据不属于同一个领域)。

比如,下图为三个不同的数据,其中 MS COCO 与 Flickr30K 图片相似,具有比较小的差异。而 MS COCO 与 Oxford-102 数据集则存在较大差异。在 MS COCO 上训练的模型,在 Oxford-102 数据集上一般表现得非常差。

我们的工作主要致力于解决跨领域图片描述生成问题 (cross-domain image captioning)。我们采用了 pre-training then adaptation 的策略。首先在 Source domain (i.e. MS COCO) 数据上做 pre-training, 然后再在 target domain (e.g. Oxford-102) 数据上做 fine-tuning。我们的工作主要有以下贡献:
1. 据我们所知,我们是第一个将 dual learning 用于图片描述生成的工作。我们同时优化两个任务:图片描述生成和图片生成。图片描述生成部分,我们采用了 encoder-decoder 学习框架,其中 encoder 是 CNN (e.g. VGG-19), 而 decoder 是 attention-based LSTM 模型。 图片生成部分,我们采用了 GAN 学习框架;
2. 图片描述生成部分,我们应用了强化学习(RL),这样可以解决传统 maximize likelihood 所错存在的 exposure bias 和 non-differentiable task metric 问题;
3. 我们将 MS COCO 做为 source domain, 将 Oxford102 和 Flickr30K 作为target domain。实验结果证明,我们的方法比传统方法有较大提升。

pre-training 的过程采用了标准的 encoder-decoder 框架,对于具体细节问题,还请大家参考原文。下面将为大家主要介绍我们的用于 domain adaptation 的 dual learning 方法。

我们采用强化学习强化学习(i.e., Policy gradient)方法来优化整个模型。我们运用了两类 rewards: evaluation metrics 和 reconstruction reward。前者可以帮助我们充分的优化生成的衡量指标,比如 BLEU,CIDEr 。后者可以帮助我们同时利用 image captioning 和 image synthesis 模型的关联,提高两个模型的效果。

另外,因为计算 reconstruction reward 不需要标注数据,我们的模型也可以无监督的或者半监督地进行学习(通过为 policy gradient 选择不同的 reward)。

reconstruction reward 的计算依赖于 dual learning 过程。我们将 image captioning 作为 primal task A,将 image synthesis 作为 dual task B。例如,当我们从 A 开始时,过程如下:首先,我们用模型 A 为每个图片 x 生成一个中间描述 y_{mid}。然后,我们用模型 B 为中间描述 y_{mid} 反向生成一个图片 x’。最后,通过评测这两个过程的生成结果,我们可以采用强化学习同时提高模型 A 和 B 的效果。

同理,当我们从 B 开始时,我们用模型 B 为每句图片描述y生成一个中间图片 x_{mid}。 然后,我们用模型 A 这个中间图片 x_{mid} 生成一句描述 y’。

这时我们可以计算模型 A 和模型 B 的 policy gradient 算法的 rewards:

实验结果

为了验证我们的跨领域图片描述生成模型,我们将 MS COCO 作为 source domain,将 Oxford102 和 Flickr30K 作为 target domain。

可发现我们的算法有较高提升。

我们也分别展示了生成的图片描述:

以及生成的图片:

关于我们

“AI论道”公众号主要用于介绍我们团队(中科院深圳先进院前瞻中心移动大数据实验室[2])以及 coauthors 的 AI 相关的一些工作。这里要感谢温伟煌同学,我们的知乎、微博、微信公众号才得以顺利出现在大家面前。

顺便打一个招人广告(我们正在建立一个研究团队):欢迎对科研有热情的同学报考我们的研究生,也欢迎同学(本科生、研究生)来我们组里实习,主要做一些关于机器学习(ML),自然语言处理(NLP)(包括将 NLP 用于图像,金融,安全等领域 )的工作。

具体研究领域请参见我的个人主页[3],同时,也欢迎大家推荐或者自荐来我们组里做 postdoc。有意者可以将简历发至我邮箱:min.yang1129@gmail.com。

时间: 2024-08-02 02:37:51

基于对偶学习的跨领域图片描述生成的相关文章

现在要交一份有窗口的图片压缩程序求给个MFC范例学习 本人跨专业好多内容看不懂

问题描述 现在要交一份有窗口的图片压缩程序求给个MFC范例学习 本人跨专业好多内容看不懂 求大神给个模板参考学习一下,主要现在真的没什么思路,而且这个算法涵盖的东西比较多希望能有人给份模板让我好好研究一下还有2个星期就要交了 求帮忙 解决方案 建议你找一个懂的人手把手教你.否则很难想象你又要一个涉及算法.界面的复杂程序,你又看不懂,又没有多少时间你能学会. 程序:http://download.csdn.net/download/kanhai2008/928687 解决方案二: 这个有点困难,,

PRICAI 2016 论文精选 | 基于多核学习整合文本信息的微博图片情绪分析

近年来,微博已经成为了人们最常用的网络社交工具之一,所以对微博中的信息进行挖掘是非常有价值的.因为图片具有快捷方便的天然属性,只用图片发布微博是一个新的趋势.目前大多数微博的情绪分析研究都聚焦在文本,已经不能适用.利用机器学习技术对图片进行情绪分析是实现高级人机交互的重要部分,对于实现人机交互.人-计算机接口以及智能计算机等有重要意义,这已成为目前模式识别.机器学习和认知科学等研究领域的热门研究课题之一. 标题:基于多核学习整合文本信息的微博图片情绪分析 摘要:微博上,图片是表达用户情绪最重要的

基于深度学习的商品检索技术

雷锋网(公众号:雷锋网)按:本文作者严灿祥,硕士毕业于中科院计算所VIPL课题组.目前就职于百度深度学习研究院.主要从事商品检索技术的研发.所在的识图策略组包括商品搜索.相似搜索.相同搜索与图像猜词等方向. 摘要 商品检索是一门综合了物体检测.图像分类以及特征学习的技术.近期,很多研究者成功地将深度学习方法应用到这个领域.本文对这些方法进行了总结,然后概括地提出了商品特征学习框架以及垂类数据挖掘方式,最后介绍了商品检索技术在服装搭配中的应用. 前言 几年前,当人们还在感叹于网页购物的快速便捷时,

中国人工智能学会通讯——对偶学习—— 推动人工智能的新浪潮

谢谢大家,感谢组委会的邀请,让我有这个机会与大家分享我们的研究工作.我刚才坐在台下聆听了孙茂松老师和 David的报告,都获益匪浅.首先,老师非常全面地回顾了机器翻译的历史,又有高屋建瓴的讨论,让我们从中学到了很多的东西:其次,很荣幸我的报告排在 David 之后,做优化和机器学习的同事们应该都非常熟悉David 的 No Free Lunch Theory,尤其在今天全世界都希望用神经网络这"一招鲜"来解决所有问题的时候,更应该仔细琢磨一下这个定理,对大家会有很大的启示. 今天我分享

中国人工智能学会通讯——深度学习与视觉计算 1.2 深度学习在计算机视觉领域的应用

1.2 深度学习在计算机视觉领域的应用 深度学习近几年成为国际上非常流行 的重要的数据分析工具,在我们视觉计算 领域也得到了广泛应用.对于传统的视觉 信息处理而言,一般首先要做特征提取: 然后利用特征进行模型学习,比如分类等. 在这个过程中,涉及到模式识别研究中两 个经典的问题,即特征的提取与表示和模 型的学习. 传统算法通常利用经验知识来手工设 置视觉特征,缺少与环境的信息交互以及知 识库的决策支持.举个例子,给定一幅图 像,我们希望知道这幅图像的目标类别(比 如斑马).按照传统的视觉模式分析

深度学习在推荐领域的应用:Lookalike 算法

本文主人公 英特 是一名传统的软件工程师,让我们与英特一起来研究如何实现自己的Lookalike算法,并尝试着在新浪微博上应用这一算法. 当2012 年Facebook 在广告领域开始应用定制化受众(Facebook CustomAudiences)功能后,受众发现这个概念真正得到大规模应用.什么是受众发现?如果你的企业已经积累了一定的客户,无论这些客户是否关注你或者是否和你在Facebook 上有互动,你都能通过Facebook 的广告系统触达到.受众发现实现了什么功能?在没有这个系统之前,广

首发!三角兽被 EMNLP 录取论文精华导读:基于对抗学习的生成式对话模型浅说

雷锋网按:近日,三角兽科技 AI Lab 的一篇论文,被世界顶级自然语言处理会议 EMNLP 高分录取,论文题目为:Neural Response Generation via GAN with an Approximate Embedding Layer,由三角兽研究团队与哈工大 ITNLP 实验室合作完成.论文中提出了一种新的对话文本对抗生成学习框架,目的是解决文本生成过程中的采样操作带来的误差无法反向传导的实际问题,从而实现基于对抗学习的聊天回复生成模型. 以下为三角兽研究团队所写的论文精

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

近日,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,刷新了ICDARRobust Reading竞赛数据集的全球最好成绩,并在"互联网图像文字"."对焦自然场景文字"和"随拍自然场景文字"三项挑战的文字识别(Word Recognition)任务中,大幅超越国内外强劲参赛团队,标志着海康威视的文字识别技术达到国际领先水平.   ICDAR(Internatio

基于深度学习的智能安防系统结构探讨

智能安防的概念提出已经有相当长时间了,但是道路并不平坦,受限于计算机视觉算法和前端设备处理能力,许多功能一直无法成熟应用.但是厂商在宣传智能水平方面往往有夸大的冲动,使得产品在部署使用后,实际性能与用户期待相去甚远.虽然这种情况使得安防领域的智能化陷入了一段尴尬时期,同时也降低了用户的期望值,使用户更加理性的看待智能安防技术,也使得真正优秀的智能安防产品能得到机会.最近数年来深度学习算法的快速发展,在各类人工智能问题上的优异表现给智能安防领域带来了新的机遇.在深度学习迅速发展的大背景下,本文就智