11.27 统一先验建模框架 I:约束谱聚类
仅仅利用颜色、纹理等底层特征仅能得到关于图像的过分割,如图 1 中所示即为用文献 [1] 中方法得到的层次化分割结果。在第 2 章和第 3 章中,已经尝试利用多多视觉信号来实现视觉物体分割,在本章和下一章中,将尝试利用各种先验信息来实现语义物体分割。考虑图 5 中的先验信息,它们分别刻画了数据
点和类别的关系(一阶数据先验)、两个数据点间的关系(二阶数据先验),以及多个数据点件的关系(三阶数据先验)。这些先验信息有些是硬性的,例如上左的交互信息和上中的轨迹分割结果;有些则是软性的,例如下中、下右所示运动模型约束。有些先验是完全准确的,例如交互信息;有些则是不精确甚至错误的,例如上右所示物体检测先验。图 5 中各种数据先验信息的特点总结如表 4 所示。
在文献 [8] 中,我们提出了约束谱聚类这一统一框架来编码上述先验,进而实现视觉物体分割。重新回顾图 1,尽管基于底层特征的图像分割算法只能得到超像素分割而无法得到语义物体分割,但这种分割能覆盖所有像素,且边缘准确而全面。图 5 中的先验信息在语义上更为可靠,但只能覆盖部分像素点,而且很多还不精确。考虑这两类信息的特点,约束谱聚类可以很好地融合这两类信息,其中谱聚类部分编码静态特征,而额外约束则建模各种数据先验信息。以一阶数据先验为例,可以建立优化如下目标(二阶和高阶类似):
其中,第一项中 L sym 为静态特征构成的相似度矩阵;第二项中 q j 可以编码软性、硬性,或者准确、含噪声的先验信息。可以证明式 (2) 有闭式解,且为L sym 最显著几个特征向量的加权平均为
直接将约束谱聚类算法应用于视觉物体分割问题将仍然可能会存在一些错误。例如在图 6 所示类别物体分割的应用中,人的头部区域缺失,而奶牛和人之间由于颜色比较相近也出现错误。通过引入额外的空间平滑正则项、Logistic 规格化、强制约束满足,以及先验评估等策略,我们能得到更好的分割。图 7 显示了其他几种常见物体分割应用,因为融合了稠密的底层特征和鲁棒的高层先验信息,约束谱聚类方法能较好地分割出物体。