计算机视觉(computer vision)是当前最热的人工智能应用领域之一,它包含图像分类、目标检测、目标跟踪、语义分割、实例分割等五大技术,其中视觉目标跟踪(visual object tracking,VOT,如无说明本篇目标跟踪均指视觉目标跟踪)是计算机视觉领域里相对最难、也是最为重要的研究问题之一。

目标跟踪的应用领域

目标跟踪在以下领域有重要应用,包括但不限于

  1. 安防领域,如车辆跟踪、人员活动识别与跟踪等
  2. 监控领域,如人脸识别、步态识别等
  3. 巡检领域,如机器人导航、无人机追踪等
  4. 人机交互、VR/AR等
  5. 交通流量监控、远程医疗或医学影像等

总结起来,目标跟踪主要应用在对视频或者具有连续语义关联的图像的某一个或一些目标的空间位置、形状、尺寸等的获取。

目标跟踪的基本原理

既然需要对某个目标在视频中进行定位和跟踪,那么就需要首先如何定义或怎么样界定需要跟踪的目标、其次如何在后续帧中定位该目标(locate)、然后如何将目标表示为计算机能够识别的信息(shape)、最后如何在后续帧找到最合适的目标位置(distinguish)。

定义目标: bounding-box

如何定义目标,即目标在图片(某一帧)上的位置、大小等,通常采用bounding-box(矩形框)来划定目标。除此之外,还包括骨架、椭圆、边界、阴影、关键点、重心等,但为了后续评价指标的定义,学术界通常采用矩形框的方式,因为这样不仅能够表示目标的位置、大小,而且只需要中心位置、长和宽等少数几个参数来表示目标,重要的是在评估算法性能时可以非常方便的使用IOU来计算准确率(Accuracy)和鲁棒性(Robustness).

后续帧候选框生成

在定义了目标的矩形框后,我们的目的是在后续帧能够准确的框出目标出现的位置和大小,即预测出矩形框的中心和长宽。一般而言,后续帧相对前一帧目标的位置一般不会变化太大(除非目标运动速度快和遮挡),那么我们的候选框的位置可以选择在前一帧的目标附近小范围搜索,大小也可以参考前一帧进行微小变化。这样在后续帧就会有很多个矩形框来近似目标,称这些矩形框为候选框。

表示候选框

人类能够识别和理解的信息很多不能够直接转化为计算机能够计算的信息,所以,我们还需要把候选框和目标的信息转化为计算机能够进行计算的特征,即特征的提取。

识别最匹配的候选框

如何从前一帧的矩形框鉴别后续帧的目标。即找到最像前一帧中的目标的候选框。该步骤主要解决匹配问题,将后续帧中可能是目标的物体和前一帧的跟踪结果进行匹配,选择相似度最大的物体作为后续帧的跟踪结果。

目标跟踪的定义

目标跟踪可以根据指定的任意目标来进行后续帧跟踪,其定义还不固定,大概有这些:

  1. 跟踪是视频序列中识别感兴趣区域的过程
  2. 给定目标在视频中某一帧的状态(包括位置、尺寸等),跟踪是估计该目标在后续帧中的状态

每一种定义都有共同之处,我定义目标跟踪为

目标跟踪就是在视频或图像序列中识别目标状态的过程。

推广阅读

详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

视觉目标跟踪漫谈:从原理到应用