Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20

Triplet loss 是一种非常常用的度量学习方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的两个改进版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 两个优点的综合体

实验证明 MSML 能够在 person ReID 的公开数据集上取得很好的结果。 这个方法不止可以应用于 person ReID,而是一种通用的度量学习方法,进一步可以延伸到图像检索等相关的各个领域

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:罗浩,浙江大学博士研究生,研究方向为计算机视觉和深度学习,现为旷视科技(Face++)research intern。

■ 论文 | Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

■ 链接 | https://www.paperweekly.site/papers/1069

■ 作者 | LUOHAO

1. 摘要

Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has become a common framework for ReID. In this paper, we propose a new metric learning loss with hard sample mining called margin smaple mining loss (MSML) which can achieve better accuracy compared with other metric learning losses, such as triplet loss. In experiments, our proposed methods outperforms most of the state-ofthe-art algorithms on Market1501, MARS, CUHK03 and CUHK-SYSU.

行人重识别是一个计算机视觉领域非常重要的一个任务。基于度量学习方法的深度学习技术如今成为了 ReID 的主流方法。在本论文中,我们提出了一种新的引入难样本采样的度量学习方法,这种方法叫做 MSML。实验表明,我们提出的方法击败了目前大多数的方法,在 Market1501,MARS,CUHK03 和 CUHK-SYSU 数据集上取得了 state-of-the-arts 的结果。

2. 方法

Triplet loss 是一种非常常用的度量学习方法,而 Quadruplet loss 和 TriHard loss 是它的两个改进版本。Quadruplet loss 相对于 Triplet loss 考虑了正负样本对之间的绝对距离,而 TriHard loss 则是引入了 hard sample mining 的思想,MSML 则吸收了这两个优点。 度量学习的目标是学习一个函数,使得空间上语义相似度反映在空间的距离上。 通常我们需要定义一个距离度量函数来表示嵌入空间(Embedding space)的距离,而这个距离也用来重识别行人图片。在国内外研究现状里面介绍的三元组损失、四元组损失和 TriHard 损失都是典型度量学习方法。给定一个三元组 {a,p,n},三元组损失表示为:

三元组损失只考虑了正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组 {a,p,n1,n2},而四元组损失也定义为:

假如我们忽视参数 αβ 的影响,我们可以用一种更加通用的形式表示四元组损失:

其中 mn 是一对负样本对,ma 既可以是一对正样本对也可以是一对负样本对。但是直接使用 Lq′ 并不能取得很好的结果,因为随着数据量的上升,可能四元组组合数量急剧上升。绝大部分样本对都是比较简单的,这限制了模型的性能。

为了解决这个问题,我们采用了 TriHard 损失使用的难样本采样思想。TriHard 损失是在一个 batch 里面计算三元组损失对于 batch 中的每一张图片 a,我们可以挑选一个最难的正样本和一个最难的负样本和 a 组成一个三元组。我们定义和 a 为相同 ID 的图片集为 A,剩下不同 ID 的图片图片集为B,则 TriHard 损失表示为:

而 TriHard 损失同样只考虑了正负样本对之间的相对距离,而没有考虑它们之间的绝对距离。于是我们把这种难样本采样的思想引入到 Lq′,可以得到:

其中 a,p,m,n 均是 batch 中的图片,a,p 是 batch 中最不像的正样本对,m,n 是batch 中最像的负样本对,a,m 皆可以是正样本对也可以是负样本对。

概括而言 ,TriHard 损失是针对 batch 中的每一张图片都挑选了一个三元组,而 MSML 损失只挑选出最难的一个正样本对和最难的一个负样本对计算损失。所以,MSML 是比 TriHard 更难的一种难样本采样。

此外,可以看作是正样本对距离的上界,看作是负样本对的下界。MSML 是为了把正负样本对的边界给推开,因此命名为边界样本挖掘损失。

MSML 只用了两对样本对计算损失,看上去浪费了很多训练数据。但是这两对样本对是根据整个 batch 的结果挑选出来了,所以 batch 中的其他图片也间接影响了最终的损失。并且随着训练周期的增加,几乎所有的数据都会参与损失的计算。

总的概括,MSML 是同时兼顾相对距离和绝对距离并引入了难样本采样思想的度量学习方法。

如果用一张图概括这几个 loss 之间的关系的话,可以表示为下图。

3. 结果

论文里在 Market1501,MARS,CUHK03 和 CUHK-SYSU 数据集都进行了对比实验,为了减少实验数量,并没有在每个数据集上都做一次实验,而是用所有数据集的训练集训练一个模型。

为了增加结果的可信度,使用了 Resnet50、inception-v2、Resnet-Xecption 三个在 ImageNet 上 pre-trained 的网络作为 base model,和 classification、Triplet loss、Quadruplet loss、TriHard loss 四个损失函数进行了对比。结果如下表,可以看出 MSML 的结果还是很不错的。

简评

MSML 是一种新的度量学习方法,吸收了目前已有的一些度量学习方法的优点,能过进一步提升模型的泛化能力。本文在行人重识别问题上发表了这个损失函数,但是这是一个在图像检索领域可以通用的度量学习方法。

原文发布时间为:2017-11-28

本文作者:罗浩

时间: 2024-09-18 17:06:14

Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20的相关文章

线上分享干货 | Deep-ReID: 关于行人重识别的深度学习方法

行人重识别是计算机视觉领域一个偏应用的话题,主要涉及智能安防/智能监控.本期我们邀请到了发表了来自悉尼科技大学博士生,近期发表ICCV2017论文的郑哲东来为我们分享行人重识别的相关内容. 分享背景 行人重识别是计算机视觉领域一个偏应用的问题,主要涉及智能安防/智能监控,可以应用于大型公共场所,如主题公园/机场/大学校园 来寻找指定行人.嘉宾将主要介绍深度学习相关的行人重识别方法. 分享嘉宾 郑哲东,悉尼科技大学博士生,研究方向为 图像检索和行人重识别.近期 ICCV 2017录用的论文<Unl

ICCV 2017 spotlight论文解读:如何提高行人再识别的准确率

一.背景简介 近年来,行人再识别问题(Person-reID)研究热度逐渐上升.与人脸识别相比,它在采集图像时不需要行人主动配合,在安防等领域具有极大的应用潜力.基于深度学习的行人再识别方法,在近几年快速进步,在绝大部分公开数据集上,深度学习特征均超过了手工设计特征.这篇文章的工作主要围绕利用如何更好地学习的深度特征,提高行人再识别的准确率进行.然而,这篇文章实际上没有具体针对行人再识别的特有问题进行分析.优化,笔者认为该方法在小数据集问题上,该方法具有一般性意义,并且,该方法对CNN特征的物理

CVPR2017精彩论文解读:效果更显著的模型压缩算法和泛化优化算法

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是优必选悉尼AI研究院对其入选CVPR 2017的两篇论文<基于低秩稀疏分解的深度模型压缩算法>和<利用奇异值界定提升深度神经网络训练效果和识别精度>进行的解读,除此之外他们还对会上Workshop竞赛的进行了相关介绍. 基于低秩稀疏分解的深度模型压缩算法--On Compressing Deep Models by Low Rank and Sparse Decompos

阿里AAAI2018论文解读:轻量网络训练框架、GAN中文命名实体识别、英俄翻译等

1. 火箭发射:一种有效的轻量网络训练框架<Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net> [团队名称]阿里妈妈事业部 [作者]周国睿.范颖.崔润鹏.卞维杰.朱小强.盖坤 [论文简介]像点击率预估这样的在线实时响应系统对响应时间要求非常严格,结构复杂,层数很深的深度模型不能很好的满足严苛的响应时间的限制.为了获得满足响应时间限制的具有优良表现的模型,我们提

Net:解读微软互联网新战略(上)

互联网|微软|战略 Net:解读微软互联网新战略(上)(玺龙阁收藏,强力推荐!) http://www.chinabyte.com/column/column_page.shtm?column_type=comp_search&coluid=2215 [作者]毛向辉 陈志红 文章纲要: 一.战略大转移 1..Net是什么? 2..Net是计算模式的转变 3..Net对软件商业模式的转变 4.微软的终极目标 5..Net对网络商业的影响 二.整体策略与产品目标的紧密配合 1.PC时代的延伸 2.面

.Net:解读微软互联网新战略(下)

互联网|微软|战略 .Net:解读微软互联网新战略(下)(玺龙阁收藏,强力推荐!) MSN网络服务 在.Net的整体策略出现之前,MSN实际上一直是微软的一个心病.自1995年随Windows 95推出以来,MSN虽然在信息内容建设方面卓有成效,但是其在微软公司内部的整体策略中的位置以及本身的发展策略一直摇摆不定.从在线服务的注册用户数量上,MSN根本无法和AOL相比,而作为一个纯粹网络服务门户又很难保证盈利.但是自从微软用.Net的思路把软件/服务融合为一个概念后,MSN就真正有了新的作用.它

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

雷锋网(公众号:雷锋网) AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受. 论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文.业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像.3D视觉.运动追踪.场景理解.视频分析等方面都有许多

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

雷锋网 AI 科技评论按:美国时间7月20日,OpenAI 刚刚通过自己的研究博客介绍了一种新的优化算法 Proximal Policy Optimization(近端策略优化,PPO).据介绍,这种算法用在强化学习中时表现能达到甚至超过现有算法的顶尖水平,同时还更易于实现和调试.所以 OpenAI 已经把PPO作为自己强化学习研究中首选的算法.雷锋网(公众号:雷锋网) AI 科技评论把这篇介绍 PPO 算法的博文编译如下. 图中就是一个 OpenAI 利用 PPO 训练的机器人.它要学习走.跑

解读两种云安全模式 2009年迈向2.0时代

本文讲的是解读两种云安全模式 2009年迈向2.0时代,[IT168 资讯]根据某权威信息安全厂商的年度报告,在2008年互联网上共出现了多达1300万种病毒,新病毒数量是去年同期10倍以上,其中木马病毒和后门程序占总体病毒数80%以上.而事实也证明,借助于病毒木马牟利的黑色产业链已经形成,凭着机械化生产加速变种,利用大量出现的系统和第三方应用程序漏洞,都为病毒木马传播提供了更广泛的途径.为了应对日益猖獗的病毒威胁,2009年各大信息安全厂商有何应对之招?领域内最值得期待的技术是什么?今年工作重