11.24 本文的出发点:模仿人类视觉
表 1 列出了人类视觉系统实现视觉物体分割所依赖的能力及素材,以及计算机与之对应的能力和素材。可以看出二者之间具有很强的可类比性,因此,本文考虑借鉴人类视觉系统的成功经验来指导计算机实现视觉物体的分割。
由于表1中前三种能力不能直接得到语义级的物体分割,我们将主要关注后面几种能力及其对应的素材。对于人来说,运动感知需要持续一定时间的序列视觉信号,计算机与之对应的能力是光流估计,而所需要的素材为视频。视差感知则需要两只眼睛同时有视觉信号的输入,计算机与之对应的是经过立体校正后的双视图图片,而两个视图对应像素间匹配的过程又称为立体匹配。经过近30 年的研究,目前计算机已经基本具备了运动感知和视差感知能力。
上述两种能力所需要的素材有一个共同的特点,都是多张图片(或多视觉信号)。一般来说,多张图片间的匹配矢量是一种区分不同物体非常有效的特征,可以应用格式塔(Gestalt)心理学中的共同命运准则来实现物体分割。
另一类实现视觉物体分割的素材是通过大量视觉经验的积累而形成的先验知识,包括对物体大小、颜色、纹理、轮廓等特性的总结,被传授的知识等。这些先验知识使得人可以分割单张静止图片中的物体,而不用再完全依赖于多视觉信号。受人类视觉的启发,本文也考虑利用两类途径来使计算机具备分割视觉物体的能力:多视觉信号分析和融合先验知识。具体来说,我们研究了多视觉信号下的匹配和运动建模问题(第 2 和 3 章),研究了各种数据和模型先验下的建模和求解问题(第4 和 5 章)。这些研究对视觉物体分割问题提供了一些新颖的分析方法,也提供了一些有效的算法。
时间: 2025-01-21 18:04:34