论文笔记之:Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach

 

Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach 

2017.11.28 

 

Introduction:

  人脸属性的识别在社会交互,提供了非常广泛的信息,包括:the person’s identity, demographic (age, gender, and race), hair style, clothing, etc. 基于人脸属性识别的场景也越来越多,如:(i)video Surveillance;

(ii)face retrieval;(iii)social media。尽管最近在属性识别上取得了很大的进展,但是,大部分 prior works 限制在预测单个属性(如:age),或者 针对每一个属性学习一个 model,进行识别。为了解决上述的局限性,已经有很多工作在尝试 joint 的预测多个属性【见文章引用 19-23】。但是这些方法都有或多或少的不足:

  1. The approaches in [19], [20], [22] used the same features for estimating all the attributes without considering the attribute heterogeneity.

  2. The sumproduct network (SPN) adopted in [21] for modeling attribute correlations may not be feasible because of the exponentially growing number of attribute group combinations.

  3. The cascade network in [23] also required learning a separate Support Vector Machine (SVM) classifier for each face attribute, and is not an end-to-end learning approach. 

 

  

  图一展示了人脸属性的相关性以及多样性。属性之间关系要么是 pos 要么是 neg。与此同时,单个属性可以是多样的(根据 data type 或者 scale,以及 semantic meaning)。这种属性相关性以及多样性应该被编码到 属性预测模型中去(Such attribute correlation and heterogeneity should be considered in designing face attribute estimation models.)。

  

Proposed Algorithm:

  本文提出一种 Deep Multi-Task Learning (DMTL) approach 来 Jointly 的预测单张图像中的多个属性。所提出的方法,是受到现有方法的启发,但是在一个网络中,考虑到 attribute correlation 以及 attribute heterogeneity。所提出的 DMTL 有前期的共享特征提取阶段,以及 特定类型的特征学习来进行多个属性的预测。共享的特征学习自然地探索了多个 task 之间的相关性,可以更加鲁棒以及有效的进行特征的表达。

 

Main Contributions:

  (i) an efficient multi-task learning (MTL) method for joint estimation of a large number of face attributes;

  (ii) modeling both attribute correlation and attribute heterogeneity in a single network;

  (iii) studying the generalization ability of the proposed approach under cross-database testing scenarios;

  (iii) compiling the LFW+ database2 with face images in the wild (LFW), and heterogeneous demographic attributes (age, gender, and race) via crowdsourcing.  

 



Proposed Approach

  1. Deep Multi-task Learning : 

  本文的目标是,用一个联合的预测模型,同时预测多个人脸属性。当大量 face attributes 给特征学习效率上带来挑战的同时,他们也提供了结合属性内部关系的机会(leveraging the attribute inter-correlations to obtain informative and robust feature representation)。例如,CelebA dataset 中的各个属性之间就有很强的 correlation,如下图所示:

  

 

  那么,采用 多任务的框架来学习这个东西,就变的特别直觉了。但是,外观变换的出现 以及 the heterogeneity of individual attributes, 从 face image space 到 attribute space 的映射,通常是 nonlinear。所以, the joint attribute estimation model 应该可以捕获到复杂和综合的非线性变换。CNN model 是一种有效的处理 MTL 以及 nonlinear transformation learning 的方法。所以,我们选择基于 CNN 的 多任务框架来完成该任务:

  一个传统的 DMTL model 进行联合的属性预测可以 formulated by minimizing the regularization error function

  

  上述 model 就是:重构 loss + 正则化项的标准做法。但是这种方法不是最优的,因为属性之间的关系并没有考虑到,而属性的预测应该共享某些 feature。这也是被其他 paper 所支持的【34】。但是,公式 1 当中的表达方式,并没有显示的强调了 a large portion of feature sharing during MTL。我们将上述表达式改为下面的形式:

  

  其中,Wc 控制了人脸属性共享的 feature,Wj 控制了共享 feature 的更新。Specifically, as shown in Fig. 2, a face image is first projected to a high-level representation through a shared deep network (Wc) consisting of a cascade of complex non-linear mappings, and then refined by shallow subnetworks ({Wj}M j=1) towards individual attribute estimation tasks。



 

Heterogeneous Face Attributes Estimation

  尽管上述 DMTL 在特征学习过程中用到了 attribute correlationsthe attribute heterogeneity 仍然需要考虑。单个 face Attribute 的异质性曾经被提出过,但没有受到足够多的关注。原因是如下两个方面:

  1. many of the public-domain face databases are labeled with a single attribute, the requirement of designing corresponding models becomes no longer urgent ; 

  2. many of the published methods choose to learn a separate model for each face attribute; model learning for individual attributes does not face the attribute heterogeneity problem. 

  

  我们分别对待每一个 异质的属性类别(the heterogeneous attribute categories),但是每一个类别的 attributes 都希望能够共享  feature learning 以及 classification model。为了完成这个,我们重写了目标函数:

  

  其中,G 是异质属性类别的个数。

  

  将大量属性进行几个 heterogeneous categories 的划分,依赖于 prior knowledge。此处,我们从 data type and scale (i.e. ordinal vs. nominal)  以及 semantic meaning (i.e. holistic vs. local) 考虑 face attribute heterogeneities,然后解释我们的 特定类别的建模,来进行这些 heterogeneous attribute categories。

  

  Nominal vs. ordinal attributes 

    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

时间: 2024-09-06 14:28:24

论文笔记之:Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach的相关文章

论文笔记之:Optical Flow Estimation using a Spatial Pyramid Network

Optical Flow Estimation using a Spatial Pyramid Network   spynet    本文将经典的 spatial-pyramid formulation 和 deep learning 的方法相结合,以一种 coarse to fine approach,进行光流的计算.This estiamates large motions in a coarse to fine approach by warping one image of a pai

论文笔记之:Dueling Network Architectures for Deep Reinforcement Learning

  Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper    摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function.  这个设计的主要特色在于 generalize learning across act

论文笔记之:Pedestrian Detection aided by Deep Learning Semantic Tasks

Pedestrian Detection aided by Deep Learning Semantic Tasks CVPR 2015 本文考虑将语义任务(即:行人属性和场景属性)和行人检测相结合,以语义信息协助进行行人检测.先来看一下大致的检测结果(TA-CNN为本文检测结果): 可以看出,由于有了属性信息的协助,其行人检测的精确度有了较大的提升.具体网络架构如下图所示: 首先从各个数据集上进行行人数据集的收集和整理,即:从Caltech上收集行人正样本和负样本,然后从其他数据集上收集 ha

Video Frame Synthesis using Deep Voxel Flow 论文笔记

  Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv    摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53    这篇文章的 Motivation 来自于 MDNet:    本文所提出的 framework 为:                             

论文笔记: Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型:  2. Dual network 分别处理两路不同的网络,使得前景和背景更加具

Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记

  Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution 论文笔记 ECCV 2016    摘要: 许多经典问题可以看做是 图像转换问题(image transformation tasks).本文所提出的方法来解决的图像转换问题,是以监督训练的方式,训练一个前向传播的网络,利用的就是图像像素级之间的误差.这种方法在测试的时候非常有效,因为仅仅需要一次前向传播即可.但是,

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

Face Aging with Conditional Generative Adversarial Network 论文笔记

Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28    Motivation: 本文是要根据最新的条件产生式对抗玩网络(CGANs)来完成,人类老年照片的估计. 主要是做了一下两个事情: 1. 根据年龄阶段,进行照片的老年估计,用 acGAN 网络来完成: 2. 提出一种 隐层变量优化算法(latent vector optimization approach),允许 acGAN 可以重构输入人脸