目标跟踪数据集有很多,这里按发布时间顺序汇集单目标跟踪数据集,给出链接以及数据集说明。

OTB

年份:2013、2015

OTB 数据集是单目标跟踪最早数据集。分为 OTB-2013(51个视频)、OTB-2015 (在OTB-2013上增加视频,共98个视频,又名 OTB-100),其中 OTB-100 前 49 个视频又名 OTB-50. 虽然 OTB-100 只有 98 个视频,但是,其中两个视频 Skating2 和 Jogging 分别针对两个目标进行标注,可分别看作 2 个视频。因此,称为 OTB-100. 其中 Skating2 在 OTB-50 中,因此 OTB-50 事实上也包含 50 个标注视频。

相关博客:单目标跟踪OTB、VOT数据集介绍

相关文章:
Y. Wu, J. Lim and M. -H. Yang, “Online Object Tracking: A Benchmark,” 2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 2411-2418, doi: 10.1109/CVPR.2013.312.

PDF

官方数据集下载地址:http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html

类别:10(OTB-2013), 16(OTB-2015)

图像:OTB-50 (官网前 49 个视频,其中 Skating2 为 2 个);OTB-100 (TB-50 加上官网上后 49 个视频,其中 Jogging 为 2 个)

大小:1.3GB(OTB-50)、2.6GB(OTB-100)

注释:groundtruth_rect.txt 包含每一帧矩形边界框位置,注意在大多数序列中,第一行对应于第一帧,最后一行对应于最后一帧,除了序列 David(300:770), Football1(1:74), Freeman3(1:460), Freeman4(1:283). 官网上还有每个视频的标注目标属性,分为 IV(Illumination Variation), SV(Scale Variation), OCC(Occlusion), DEF(Deformation), MB(Motion Blur), FM(Fast Motion), IPR(In-Plane Rotation), OPR(Out-of-Plane Rotation), OV(Out-of-View), BC(Background Clutters), LR(Low Resolution).

边界框:[x, y, box-width, box-height]

评估方法:OPE(one-pass evaluation)、TRE(temporal robustness evaluation)、SRE(spatial robustness evaluation)

评估度量:Precision plot(threshold=20), Success plot(threshold=0.5), AUC

评估工具集:http://cvlab.hanyang.ac.kr/tracker_benchmark/benchmark_v10.html

VOT

年份:2013-至今,每年一次更新

VOT 数据集是基于 Open Challenge VOT 挑战赛。

2022年包括如下挑战赛道:

  1. VOT-STs: RGB short-term segmentation tracking challenge
  2. VOT-STb: RGB short-term bounding box tracking challenge (NEW)
  3. VOT-RT: RGB short-term tracking challenge
  4. VOT-LT: RGB long-term bounding box tracking challenge
  5. VOT-RGBD: RGB+depth bounding box tracking challenge

相关博客:单目标跟踪OTB、VOT数据集介绍

相关文章:
M. Kristan et al., “A Novel Performance Evaluation Methodology for Single-Target Trackers,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 11, pp. 2137-2155, 1 Nov. 2016, doi: 10.1109/TPAMI.2016.2516982.

PDF

官方数据集下载地址:https://www.votchallenge.net/vot2018/dataset.html
不同年份的数据集,请将 “vot2018” 替换为不同的年份即可获得相应年份的 vot 数据集下载地址

类别:24

图像:分辨率不同、彩色;30FPS;

大小:一般为 60 个视频

注释:groundtruth.txt 中包含每一帧目标的矩形框四个点坐标;另外还有每帧目标的一些属性(取值为 0 或 1),如 camera_motion.tag, illum_change.tag, motion_change.tag, occlusion.tag, size_change.tag 等

边界框:[x1, y1, x2, y2, x3, y3, x4, y4],分别表示左下、右下、右上、左上四个点坐标;非矩形边界框

评估方法:重启机制

评估度量:Accuracy、Robustness、EAO(Expected Average Overlap)、EFO(Equivalent Filter Operations)

评估工具集:
https://github.com/votchallenge/toolkit
https://docs.votchallenge.net/
https://github.com/votchallenge/toolkit-legacy

COCO

年份:2014

Common Objects in Context (COCO) 是微软提出的,该数据集是一个大规模的对象检测(object detection)、分割(segmentation)和图像标注(captioning,看图说话)数据集。特点如下:

  • 图片大多数来源于生活中,背景更复杂
  • 每张图片上的实例目标个数多,平均每张图片 7.7 个
  • 小目标更多
  • 评估标准更严格

相关博客:目标检测数据集MSCOCO简介

相关文章:

Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., … & Zitnick, C. L. (2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham.

[PDF]

官方数据集下载地址:https://cocodataset.org/#download

类别:80 目标类,91 stuff categories, 5 captions per image, 250k people with keypoints

图像:330K(> 200K 标注);1.5 million 目标实例;平均每张图片包含的 3.5 个类别和 7.7 个目标;小目标占比较 ImageNet 多;包含大约 41% 的小目标 ($\textbf{area} < 32 \times 32$), 34% 的中等目标 ($ 32 \times 32 < \textbf{area} < 96 \times 96$) 和 24% 的大目标 ($\textbf{area} > 96 \times 96$).

大小:46G(2017)

注释:包含 id, image_id, category_id, segmentation, area, iscrowd, bbox;注释采用 JSON 文件

边界框: [x, y, width, height]

评估方法:one-pass evaluation (OPE)

评估度量:mAP (mean average precision), mAR (mean average recall)

评估工具集:https://github.com/cocodataset/cocoapi

UAV123 & UAV20L

年份:2016

UAV123 & UAV20L 是有沙特阿拉伯图瓦尔的阿卜杜拉国王科技大学 (KAUST)提出,是航空视频数据集和低空无人机目标跟踪基准。

相关博客:【技术向】目标跟踪UAV123数据集下载及使用指南

相关文章:
Mueller, M., Smith, N., Ghanem, B. (2016). A Benchmark and Simulator for UAV Tracking. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds) Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science(), vol 9905. Springer, Cham. https://doi.org/10.1007/978-3-319-46448-0_27

PDF

官方数据集下载地址:https://cemse.kaust.edu.sa/ivul/uav123

类别:a wide variety of scenes (e.g. urban landscape, roads, buildings, fields, beaches and a harbor/marina), targets (e.g. cars, trucks, boats, persons, groups, and aerial vehicles), and activities (e.g. walking, cycling, wakeboarding, driving, swimming, and flying)

视频:UAV123 包含 123 个短视频,> 110K 帧;UAV20L 是 UAV123 的子集,包含 20 个长视频

大小:大约 13.7GB

注释:illumination variation; scale variation; partial occlusion; full occlusion; out-of-view; fast motion; camera motion; background clutter; similar object; aspect ratio; viewpoint change; low resolution.

边界框: [x, y, width, height]

评估方法:one-pass evaluation (OPE) and spatial robustness evaluation (SRE)

评估度量:同 OTB50,precision and succes, AUC.

评估工具集:https://cemse.kaust.edu.sa/ivul/uav123

TrackingNet

年份:2018

TrackingNet 也是阿卜杜拉国王科技大学提出的,该数据集是野外目标跟踪的大规模数据集和基准。

相关博客:目标跟踪数据集整理(一)—TrackingNet

相关文章:

Muller, M., Bibi, A., Giancola, S., Alsubaihi, S., & Ghanem, B. (2018). Trackingnet: A large-scale dataset and benchmark for object tracking in the wild. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 300-317).

[PDF]

官方数据集下载地址:
https://exrcsdrive.kaust.edu.sa/exrcsdrive/index.php/s/MAaiTPdOwiPDNlp password: TrackingNet
全部链接请访问如下地址获取:
https://github.com/SilvioGiancola/TrackingNet-devkit

类别:23 目标类,人分为 7 个详细类别

视频:> 30K;平均时长为 16.6s,1443,1266 帧

大小:1.1T

注释:scale variation; aspect ratio change; fast motiong; low resolution; out-of-view etc.

边界框: [x, y, width, height]

评估方法:one-pass evaluation (OPE)

评估度量:success Sprecision PPnorm

评估工具集:https://github.com/SilvioGiancola/TrackingNet-devkit

GOT-10k

年份:2019

Generic Object Tracking (GOT-10k) 是有中科院自动化所提出,第一作者是 Lianghua Huang,该数据集是一个用于野外通用对象跟踪的大型、高多样性、一次性(one-shot)数据集。

相关文章:

GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild.
L. Huang*, X. Zhao*, and K. Huang. ( *Equal contribution)
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
[PDF] [BibTex]

官方数据集下载地址:http://got-10k.aitestunion.com/downloads

类别:563 目标类,87 运动类

图像:10k

大小:66G

注释:边界框、对象可见率、对象存在与否、对象是否在每帧中被图像切割以及序列的元信息(对象、运动类、URL);注释采用 txt 文档

边界框: [xmin, ymin, width, height]

评估方法:one-shot protocol

评估度量:mAO (mean average overlap), mSR (mean success rate)

评估工具集:https://github.com/got-10k/toolkit

LaSOT

年份:2019

Large-scale Single Object Tracking (LaSOT) 是天普大学,华南理工大学,鹏城实验室,美图-亮风台联合实验室等提出,第一作者是 Heng Fan ,该数据集数据量大,用于评估长时跟踪性能,特点如下:

  • Large-scale: 1,550 sequences with more 3.87 millions frames
  • High-quality: Manual annotation with careful inspection in each frame
  • Category balance: 85 categories with each containing twenty (70 classes) or ten (15 classes) sequences
  • Long-term tracking: An average video length of around 2,500 frames (i.e., 83 seconds)
  • Comprehensive labeling: Providing both visual and lingual annotation for each sequence
  • Flexible Evaluation Protocol: Evaluation under three different protocols: no constraint, full-overlap and one-shot

相关文章:

LaSOT: A High-quality Large-scale Single Object Tracking Benchmark
H. Fan*, H. Bai*, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, Harshit, M. Huang, J Liu, Y. Xu, C. Liao, L Yuan, and H. Ling
International Journal of Computer Vision (IJCV), 2020. (accepted)

LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking
H. Fan*, L. Lin*, F. Yang*, P. Chu*, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, and H. Ling
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

相关博客:亮风台

官方数据集下载地址:http://vision.cs.stonybrook.edu/~lasot/download.html

类别:70

视频:1400

大小:大约 227G

注释:边界框、完全遮挡、视野外标志以及语言描述

边界框: [x, y, width, height]

评估方法:one-pass evaluation (OPE)

评估度量:Precision, Normalized Precision and Success

评估工具集:https://github.com/HengLan/LaSOT_Evaluation_Toolkit