目标跟踪数据集有很多，这里按发布时间顺序汇集单目标跟踪数据集，给出链接以及数据集说明。

OTB

年份：2013、2015

OTB 数据集是单目标跟踪最早数据集。分为 OTB-2013(51个视频)、OTB-2015 (在OTB-2013上增加视频，共98个视频，又名 OTB-100)，其中 OTB-100 前 49 个视频又名 OTB-50. 虽然 OTB-100 只有 98 个视频，但是，其中两个视频 Skating2 和 Jogging 分别针对两个目标进行标注，可分别看作 2 个视频。因此，称为 OTB-100. 其中 Skating2 在 OTB-50 中，因此 OTB-50 事实上也包含 50 个标注视频。

相关博客：单目标跟踪OTB、VOT数据集介绍

相关文章：
Y. Wu, J. Lim and M. -H. Yang, “Online Object Tracking: A Benchmark,” 2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 2411-2418, doi: 10.1109/CVPR.2013.312.

PDF

官方数据集下载地址：http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html

类别：10(OTB-2013), 16(OTB-2015)

图像：OTB-50 (官网前 49 个视频，其中 Skating2 为 2 个)；OTB-100 (TB-50 加上官网上后 49 个视频，其中 Jogging 为 2 个)

大小：1.3GB(OTB-50)、2.6GB(OTB-100)

注释：groundtruth_rect.txt 包含每一帧矩形边界框位置，注意在大多数序列中，第一行对应于第一帧，最后一行对应于最后一帧，除了序列 David(300:770), Football1(1:74), Freeman3(1:460), Freeman4(1:283). 官网上还有每个视频的标注目标属性，分为 IV(Illumination Variation), SV(Scale Variation), OCC(Occlusion), DEF(Deformation), MB(Motion Blur), FM(Fast Motion), IPR(In-Plane Rotation), OPR(Out-of-Plane Rotation), OV(Out-of-View), BC(Background Clutters), LR(Low Resolution).

边界框：[x, y, box-width, box-height]

评估方法：OPE(one-pass evaluation)、TRE(temporal robustness evaluation)、SRE(spatial robustness evaluation)

评估度量：Precision plot(threshold=20), Success plot(threshold=0.5), AUC

评估工具集：http://cvlab.hanyang.ac.kr/tracker_benchmark/benchmark_v10.html

VOT

年份：2013-至今，每年一次更新

VOT 数据集是基于 Open Challenge VOT 挑战赛。

2022年包括如下挑战赛道：

VOT-STs: RGB short-term segmentation tracking challenge
VOT-STb: RGB short-term bounding box tracking challenge (NEW)
VOT-RT: RGB short-term tracking challenge
VOT-LT: RGB long-term bounding box tracking challenge
VOT-RGBD: RGB+depth bounding box tracking challenge

相关博客：单目标跟踪OTB、VOT数据集介绍

相关文章：
M. Kristan et al., “A Novel Performance Evaluation Methodology for Single-Target Trackers,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 11, pp. 2137-2155, 1 Nov. 2016, doi: 10.1109/TPAMI.2016.2516982.

PDF

官方数据集下载地址：https://www.votchallenge.net/vot2018/dataset.html
不同年份的数据集，请将 “vot2018” 替换为不同的年份即可获得相应年份的 vot 数据集下载地址

类别：24

图像：分辨率不同、彩色；30FPS；

大小：一般为 60 个视频

注释：groundtruth.txt 中包含每一帧目标的矩形框四个点坐标；另外还有每帧目标的一些属性（取值为 0 或 1），如 camera_motion.tag, illum_change.tag, motion_change.tag, occlusion.tag, size_change.tag 等

边界框：[x1, y1, x2, y2, x3, y3, x4, y4]，分别表示左下、右下、右上、左上四个点坐标；非矩形边界框

评估方法：重启机制

评估度量：Accuracy、Robustness、EAO(Expected Average Overlap)、EFO(Equivalent Filter Operations)

评估工具集：
https://github.com/votchallenge/toolkit
https://docs.votchallenge.net/
https://github.com/votchallenge/toolkit-legacy

COCO

年份：2014

Common Objects in Context (COCO) 是微软提出的，该数据集是一个大规模的对象检测（object detection）、分割（segmentation）和图像标注（captioning，看图说话）数据集。特点如下：

图片大多数来源于生活中，背景更复杂
每张图片上的实例目标个数多，平均每张图片 7.7 个
小目标更多
评估标准更严格

相关博客：目标检测数据集MSCOCO简介

Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., … & Zitnick, C. L. (2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham.

[PDF]

官方数据集下载地址：https://cocodataset.org/#download

类别：80 目标类，91 stuff categories, 5 captions per image, 250k people with keypoints

图像：330K（> 200K 标注）；1.5 million 目标实例；平均每张图片包含的 3.5 个类别和 7.7 个目标；小目标占比较 ImageNet 多；包含大约 41% 的小目标 ($\textbf{area} < 32 \times 32$), 34% 的中等目标 ($ 32 \times 32 < \textbf{area} < 96 \times 96$) 和 24% 的大目标 ($\textbf{area} > 96 \times 96$).

大小：46G（2017）

注释：包含 id, image_id, category_id, segmentation, area, iscrowd, bbox；注释采用 JSON 文件

边界框： [x, y, width, height]

评估方法：one-pass evaluation (OPE)

评估度量：mAP (mean average precision)， mAR (mean average recall)

评估工具集：https://github.com/cocodataset/cocoapi

UAV123 & UAV20L

年份：2016

UAV123 & UAV20L 是有沙特阿拉伯图瓦尔的阿卜杜拉国王科技大学 (KAUST)提出，是航空视频数据集和低空无人机目标跟踪基准。

相关博客：【技术向】目标跟踪UAV123数据集下载及使用指南

相关文章：
Mueller, M., Smith, N., Ghanem, B. (2016). A Benchmark and Simulator for UAV Tracking. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds) Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science(), vol 9905. Springer, Cham. https://doi.org/10.1007/978-3-319-46448-0_27

PDF

官方数据集下载地址：https://cemse.kaust.edu.sa/ivul/uav123

类别：a wide variety of scenes (e.g. urban landscape, roads, buildings, fields, beaches and a harbor/marina), targets (e.g. cars, trucks, boats, persons, groups, and aerial vehicles), and activities (e.g. walking, cycling, wakeboarding, driving, swimming, and flying)

视频：UAV123 包含 123 个短视频，> 110K 帧；UAV20L 是 UAV123 的子集，包含 20 个长视频

大小：大约 13.7GB

注释：illumination variation; scale variation; partial occlusion; full occlusion; out-of-view; fast motion; camera motion; background clutter; similar object; aspect ratio; viewpoint change; low resolution.

边界框： [x, y, width, height]

评估方法：one-pass evaluation (OPE) and spatial robustness evaluation (SRE)

评估度量：同 OTB50，precision and succes, AUC.

评估工具集：https://cemse.kaust.edu.sa/ivul/uav123

TrackingNet

年份：2018

TrackingNet 也是阿卜杜拉国王科技大学提出的，该数据集是野外目标跟踪的大规模数据集和基准。

相关博客：目标跟踪数据集整理（一）—TrackingNet

Muller, M., Bibi, A., Giancola, S., Alsubaihi, S., & Ghanem, B. (2018). Trackingnet: A large-scale dataset and benchmark for object tracking in the wild. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 300-317).

[PDF]

官方数据集下载地址：
https://exrcsdrive.kaust.edu.sa/exrcsdrive/index.php/s/MAaiTPdOwiPDNlp password: TrackingNet
全部链接请访问如下地址获取：
https://github.com/SilvioGiancola/TrackingNet-devkit

类别：23 目标类，人分为 7 个详细类别

视频：> 30K；平均时长为 16.6s，1443,1266 帧

大小：1.1T

注释：scale variation; aspect ratio change; fast motiong; low resolution; out-of-view etc.

边界框： [x, y, width, height]

评估方法：one-pass evaluation (OPE)

评估度量：success S， precision P， Pnorm

评估工具集：https://github.com/SilvioGiancola/TrackingNet-devkit

GOT-10k

年份：2019

Generic Object Tracking (GOT-10k) 是有中科院自动化所提出，第一作者是 Lianghua Huang，该数据集是一个用于野外通用对象跟踪的大型、高多样性、一次性（one-shot）数据集。

GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild.
L. Huang*, X. Zhao*, and K. Huang. ( *Equal contribution)
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
[PDF] [BibTex]

官方数据集下载地址：http://got-10k.aitestunion.com/downloads

类别：563 目标类，87 运动类

图像：10k

大小：66G

注释：边界框、对象可见率、对象存在与否、对象是否在每帧中被图像切割以及序列的元信息（对象、运动类、URL）；注释采用 txt 文档

边界框： [xmin, ymin, width, height]

评估方法：one-shot protocol

评估度量：mAO (mean average overlap)， mSR (mean success rate)

评估工具集：https://github.com/got-10k/toolkit

LaSOT

年份：2019

Large-scale Single Object Tracking (LaSOT) 是天普大学，华南理工大学，鹏城实验室，美图-亮风台联合实验室等提出，第一作者是 Heng Fan ，该数据集数据量大，用于评估长时跟踪性能，特点如下：

Large-scale: 1,550 sequences with more 3.87 millions frames
High-quality: Manual annotation with careful inspection in each frame
Category balance: 85 categories with each containing twenty (70 classes) or ten (15 classes) sequences
Long-term tracking: An average video length of around 2,500 frames (i.e., 83 seconds)
Comprehensive labeling: Providing both visual and lingual annotation for each sequence
Flexible Evaluation Protocol: Evaluation under three different protocols: no constraint, full-overlap and one-shot

LaSOT: A High-quality Large-scale Single Object Tracking Benchmark
H. Fan*, H. Bai*, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, Harshit, M. Huang, J Liu, Y. Xu, C. Liao, L Yuan, and H. Ling
International Journal of Computer Vision (IJCV), 2020. (accepted)

LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking
H. Fan*, L. Lin*, F. Yang*, P. Chu*, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, and H. Ling
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.