【简评】[CVPR2017]Loss Max-Pooling for Semantic Image Segmentation

现有方法

1.构建数据集时近似均匀地采样,保证每种类别分布较为均匀

  • 这种方法在image-level上还比较方便操作,在semantic segmentation上难以保证

2.对minority classes进行上采样或者对majority classes进行下采样缺点:

  • 会改变数据潜在分布
  • 对数据不是最优利用(suboptimal exploitation),比如可能会丢掉一些majority classes的数据
  • 增加计算成本和过拟合的风险,比如某些minority classes数据会被重复利用很多次

3.cost-sensitive learning

  • 现在semantic segmentation datasets增加了更多的minority classes,这使得权重的划分更复杂

所以这篇文章提出了一种新的解决方法:Loss Max-Pooling

主要思想

1.通过pixel weighting functions自适应地对每个像素的contribution(实际展现的loss)进行re-weighting

  • 引起更高loss的像素的权重更大,这直接对潜在的类内和类间不平衡进行了补偿
  • Focus on a family of weighting functions with bounded p-norm and -norm

2.通过普通的max-pooling在pixel-loss level上对pixel weighting function取最大

3.而这个最大值是传统loss(即每个像素损失的权重是相等的)的上界

数学分析

Standard setting

语义分割任务中损失公式定义如下:

是损失函数,是正则项

在普通semantic segmentation中,损失又可继续写成:

其中:

  • 是每个像素的损失,是定义的求和符号
  • 可见每个像素损失的权重是均匀的,这将使学习器偏向于图像中的主要部分

Loss Max-Pooling

文章设计了一个weighting function的convex, compact的空间,,其中包括了均匀加权的情况,即

得到的损失函数如下:

之后,文章定义了一个新的损失,即对不同weighting functions下的损失取最大:

而这是文章中定义的所有损失函数的上界,包括传统的均匀加权的损失。文章提到这里的取最大值其实就是,max-pooling在pixel-loss level上的应用,所以这种方法才叫做 Loss Max-pooling。

Loss Max-Pooling的特性取决于空间的形状。所以,文章中对空间进行了一些限定。

The space  of weighting functions

文章中关注的是由范数和范数限定的weighting functions,这里对范数和范数也进行了限定。
其中,的取值范围是

Left:二维情况下的图形,其中

Right:当时的

通过改变可以控制pixel selectivity degree of the pooling operation

一方面:

  • As  , the optimal weights will be in general concentrated around a single pixel
  • As  , the optimal weights will be uniformly spread across pixels

另一方面:

  • 可以通过关系, 控制被optimal weighting function support的最小像素数(我的理解是,其实就是保证至少多少像素被赋予权重)

可以由下面两幅图来理解:

图中选取了100个像素,同时为了可视化对像素进行了排序。

由左图可以看到,当接近的时候,权重变成了均匀加权(蓝色虚线);当接近1时,权重变得很陡峭,但是的限制保证了至少需要support的像素数。

由右图可以看出,当时权重又变为了均匀加权(红色虚线),而每个值都对应了一段平均加权,也就说明代表了像素共享权重的程度。

之后文章主要介绍了对的计算,计算时采用了对偶的方式来求解,最后转化为对的计算,具体详细证明可以请看论文。最后算法流程如下:

文中还提到了一个辅助的取样策略,综合考虑了均匀采样和模型性能。因为文中并未细说,同时也不是本文重点,所以在此不赘述了。

实验结果

LMP是Loss Max-pooling+辅助取样策略的结果;Proposed loss only是不加辅助取样策略的结果;所有结果没有使用multi-scale input和CRF做进一步优化。

原文发布时间为: 2017-06-15

本文作者:ycszen

时间: 2025-01-01 09:23:55

【简评】[CVPR2017]Loss Max-Pooling for Semantic Image Segmentation的相关文章

论文笔记之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

    A CNN Cascade for Landmark Guided Semantic Part Segmentation  ECCV 2016   摘要:本文提出了一种 CNN cascade (CNN 级联)结构,根据一系列的定位(landmarks or keypoints),得到特定的 pose 信息,进行 语义 part 分割.前人有许多单独的工作,但是,貌似没有将这两个工作结合到一起,相互作用的 multi-task 的工作.本文就弥补这个缺口,提出一种 CNN cascade

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

雷锋网(公众号:雷锋网) AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是Momenta高级研究员陈亮对此次大会收录的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation  一文进行的解读. 随着激光雷达,RGBD相机等3D传感器在机器人,无人驾驶领域的广泛应用.针对三维点云数据的研究也逐渐从低层次几何特征提取( PFH, FPFH,VFH等)向高层次语义理

Facebook为CVPR2017准备了多出好戏,一起来看看“节目单”

雷锋网 AI 科技评论按:计算机视觉的顶级会议 CVPR 2017 已经开始了,AI 研究巨头 Facebook 今天也发出一篇博文介绍自己都将在本届 CVPR 中展现哪些成果.博文中主要内容编译如下. 最佳 workshop 论文奖 Facebook 连接性实验室研究员 Ilke Demir.Ramesh Raskar 等人与 MIT 媒体实验室共同完成的论文「Robocodes: Towards Generative Street Addresses from Satellite Image

深度解读:GAN模型及其在2016年度的进展

雷锋网(公众号:雷锋网)注:本文作者杨双,于2016获中国科学院自动化研究所博士学位.现任中国科学院计算技术研究所智能信息处理重点实验室助理教授.主要研究方向包括深度学习.贝叶斯建模与推理.序列建模等. GAN,全称为Generative Adversarial Nets,直译为生成式对抗网络.它一方面将产生式模型拉回到了一直由判别式模型称霸的AI竞技场,引起了学者甚至大众对产生式模型的研究兴趣,同时也将对抗训练从常规的游戏竞技领域引到了更一般领域,引起了从学术界到工业界的普遍关注.笔者对几大会

QA Systems and Deep Learning Technologies – Part 2

Introduction This is the second article in a two part series about QA Systems and Deep Learning. You can read part 1 here. Deep Learning is a subfield of machine learning, and aims at using machines for data abstraction with the help of multiple proc

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理初学者在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏览记录 1.google deepmind :Look, Listen and Learn 多信息融合感觉很厉害 2.The Weizmann Institute of Science:Non-Uniform Blind Deblurring by Reblurring 非均匀盲模糊 3.中科大(微软

如何利用微信监管你的TF训练

原问题下的回答如下 不知道有哪些朋友是在TF/keras/chainer/mxnet等框架下用python撸的-.- 这可是python啊--上itchat,弄个微信号加自己为好友(或者自己发自己),训练进展跟着一路发消息给自己就好了,做了可视化的话顺便把图也一并发过来. 然后就能安心睡觉/逛街/泡妞/写答案了. 讲道理,甚至简单的参数调整都可以照着用手机来-- 大体效果如下 当然可以做得更全面一些.最可靠的办法自然是干脆地做一个http服务或者一个rpc,然而这样往往太麻烦.本着简单高效的原则

LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型

本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果.如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络(convolutional neural network, CNN)有一定的了解,可以直接看摘要和LSF-SCNN创新与技术实现部分.如果能启发灵感,应用于更多的现实场景中带来效果提升,那才是这篇文章闪光的时刻.如果你没有接触过NLP和CNN,也不在担心,可以从头到尾听我娓娓道来.有任何问题,欢迎交流. 1. 摘要

基于深度学习的智能问答

作者:周小强 陈清财 曾华军 1引言 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自动问答系统较以往任何时候都显得离实际应用更近.这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得益于维基百科等大规模知识库以及海量网络信息的出现.然而,现有的自动问答系统所面临的问题远没有完全解决.事实上,无论是业界应用还是学术研究,问句的真实意图分析.问句