11.67 视觉目标跟踪中的表观建模研究
视觉目标跟踪(Visual Object Tracking)是指在图像序列中根据视频信息在空间或时间上的相关性,对特定目标进行检测、提取并获得目标的位置参数,如目标质心的位置、姿态、形状、轨迹等[1] 。根据跟踪结果,可以对目标进行后续深入的分析,以实现对特定目标的行为理解,或完成更高层的任务。因此,视觉目标跟踪是解决很多计算机视觉问题的基础,具有重要的理论研究价值。此外,视觉目标跟踪已在视频监控、智能交通、人机交互、行为分析、医学图像处理等领域得到了广泛应用,具有广阔的应用前景。
视觉目标跟踪算法主要分为目标初始化、表观建模、运动估计和目标定位四部分。跟踪中,一般手动或者使用检测器实现对目标的初始化。表观建模主要描述目标的视觉特征(颜色、纹理、边缘等),以及如何度量视觉特征之间的相似性,它是实现鲁棒跟踪的先决条件。运动估计则是采用某种运动假设来确定目标的可能位置,比如线性回归、卡尔曼滤波或粒子滤波。最后,在表观模型和运动估计的基础上,采用某种最优化策略确定目标最可能的位置以达到目标关联的目的,实现跟踪。由于受背景复杂、光照变化、非刚体形变、遮挡等因素的影响,设计一种鲁棒的表观模型一直是视觉目标跟踪中的难点。许多研究者运用不同的目标表示和(或者)统计模型提出了各种各样的表观模型,旨在克服跟踪所面临的各种挑战。如何设计一种鲁棒的表观模型还存在一些值得深入探索的问题。
(1)产生式的表观建模通过在线更新机制增量地学习目标区域的表示,却忽略了背景信息。判别式的表观建模可以更好地适应场景的变化,能将目标从背景中分离出来,但是它却依赖于大量地训练样本来拟合目标表观的数据分布。因此,在无需指定样本分布的情况下,如何利用少量的有标签样本来构建鲁棒的判别式表观模型是一个有挑战性的问题。
(2)大多数判别式表观模型,在学习分类器时利用采样和加标签两个独立的策略选择训练样本。即从已有的跟踪结果附近采集样本,然后使用某种启发式方法估计样本的标签。例如,将离跟踪结果较近的样本标记为正样本,将离跟踪结果较远的样本标记为负样本。然而,根据已有的跟踪结果为样本估计标签容易引起误差累积,并且样本的采集是无目的性的。因此,如何获取含有能提高分类器性能的有利信息的样本也是表观建模研究的方向。
(3)近年来,稀疏表示作为一种有效的物体中层表示策略,在视觉跟踪中得到了广泛应用[2] 。目前基于稀疏表示的跟踪方法都假定数据位于欧式空间 。然而,在实际应用中,特征数据往往位于具有某种潜在几何结构的黎曼流形 M 上。如果直接用欧式空间中获得数据稀疏表示的策略来处理位于黎曼流形的数据既不合理也不恰当,因为黎曼流形M 上的点不能简单地表示为某些字典中基元的线性组合。因此,研究黎曼流形上的稀疏表示是很有意思的课题。
(4)基于稀疏的跟踪算法中[3-9]大多以重构误差大小为衡量标准来确定最终跟踪结果。研究发现,以重构误差构造目标的观测似然概率存在一些问题。是否能够突破重构误差为衡量标准的思路从新的角度研究稀疏表观建模问题,也是一个有意思的工作。