计算机视觉（computer vision）是当前最热的人工智能应用领域之一，它包含图像分类、目标检测、目标跟踪、语义分割、实例分割等五大技术，其中视觉目标跟踪（visual object tracking，VOT，如无说明本篇目标跟踪均指视觉目标跟踪）是计算机视觉领域里相对最难、也是最为重要的研究问题之一。

目标跟踪的应用领域

目标跟踪在以下领域有重要应用，包括但不限于

安防领域，如车辆跟踪、人员活动识别与跟踪等
监控领域，如人脸识别、步态识别等
巡检领域，如机器人导航、无人机追踪等
人机交互、VR/AR等
交通流量监控、远程医疗或医学影像等

总结起来，目标跟踪主要应用在对视频或者具有连续语义关联的图像的某一个或一些目标的空间位置、形状、尺寸等的获取。

目标跟踪的基本原理

既然需要对某个目标在视频中进行定位和跟踪，那么就需要首先如何定义或怎么样界定需要跟踪的目标、其次如何在后续帧中定位该目标（locate）、然后如何将目标表示为计算机能够识别的信息（shape）、最后如何在后续帧找到最合适的目标位置（distinguish）。

定义目标: bounding-box

如何定义目标，即目标在图片（某一帧）上的位置、大小等，通常采用bounding-box（矩形框）来划定目标。除此之外，还包括骨架、椭圆、边界、阴影、关键点、重心等，但为了后续评价指标的定义，学术界通常采用矩形框的方式，因为这样不仅能够表示目标的位置、大小，而且只需要中心位置、长和宽等少数几个参数来表示目标，重要的是在评估算法性能时可以非常方便的使用IOU来计算准确率（Accuracy）和鲁棒性（Robustness）.

后续帧候选框生成

在定义了目标的矩形框后，我们的目的是在后续帧能够准确的框出目标出现的位置和大小，即预测出矩形框的中心和长宽。一般而言，后续帧相对前一帧目标的位置一般不会变化太大（除非目标运动速度快和遮挡），那么我们的候选框的位置可以选择在前一帧的目标附近小范围搜索，大小也可以参考前一帧进行微小变化。这样在后续帧就会有很多个矩形框来近似目标，称这些矩形框为候选框。