单目标跟踪数据集
目标跟踪数据集有很多,这里按发布时间顺序汇集单目标跟踪数据集,给出链接以及数据集说明。
OTB
年份:2013、2015
OTB 数据集是单目标跟踪最早数据集。分为 OTB-2013(51个视频)、OTB-2015 (在OTB-2013上增加视频,共98个视频,又名 OTB-100),其中 OTB-100 前 49 个视频又名 OTB-50. 虽然 OTB-100 只有 98 个视频,但是,其中两个视频 Skating2 和 Jogging 分别针对两个目标进行标注,可分别看作 2 个视频。因此,称为 OTB-100. 其中 Skating2 在 OTB-50 中,因此 OTB-50 事实上也包含 50 个标注视频。
相关博客:单目标跟踪OTB、VOT数据集介绍
相关文章:
Y. Wu, J. Lim and M. -H. Yang, “Online Object Tracking: A Benchmark,” 2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 2411-2418, doi: 10.1109/CVPR.2013.312.
官方数据集下载地址:http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html
类别:10(OTB-2013), 16(OTB-2015)
图像:OTB-50 (官网前 49 个视频,其中 Skating2 为 2 个);OTB-100 (TB-50 加上官网上后 49 个视频,其中 Jogging 为 2 个)
大小:1.3GB(OTB-50)、2.6GB(OTB-100)
注释:groundtruth_rect.txt 包含每一帧矩形边界框位置,注意在大多数序列中,第一行对应于第一帧,最后一行对应于最后一帧,除了序列 David(300:770), Football1(1:74), Freeman3(1:460), Freeman4(1:283). 官网上还有每个视频的标注目标属性,分为 IV(Illumination Variation), SV(Scale Variation), OCC(Occlusion), DEF(Deformation), MB(Motion Blur), FM(Fast Motion), IPR(In-Plane Rotation), OPR(Out-of-Plane Rotation), OV(Out-of-View), BC(Background Clutters), LR(Low Resolution).
边界框:[x, y, box-width, box-height]
评估方法:OPE(one-pass evaluation)、TRE(temporal robustness evaluation)、SRE(spatial robustness evaluation)
评估度量:Precision plot(threshold=20), Success plot(threshold=0.5), AUC
评估工具集:http://cvlab.hanyang.ac.kr/tracker_benchmark/benchmark_v10.html
VOT
年份:2013-至今,每年一次更新
VOT 数据集是基于 Open Challenge VOT 挑战赛。
2022年包括如下挑战赛道:
- VOT-STs: RGB short-term segmentation tracking challenge
- VOT-STb: RGB short-term bounding box tracking challenge (NEW)
- VOT-RT: RGB short-term tracking challenge
- VOT-LT: RGB long-term bounding box tracking challenge
- VOT-RGBD: RGB+depth bounding box tracking challenge
相关博客:单目标跟踪OTB、VOT数据集介绍
相关文章:
M. Kristan et al., “A Novel Performance Evaluation Methodology for Single-Target Trackers,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 11, pp. 2137-2155, 1 Nov. 2016, doi: 10.1109/TPAMI.2016.2516982.
官方数据集下载地址:https://www.votchallenge.net/vot2018/dataset.html
不同年份的数据集,请将 “vot2018” 替换为不同的年份即可获得相应年份的 vot 数据集下载地址
类别:24
图像:分辨率不同、彩色;30FPS;
大小:一般为 60 个视频
注释:groundtruth.txt 中包含每一帧目标的矩形框四个点坐标;另外还有每帧目标的一些属性(取值为 0 或 1),如 camera_motion.tag, illum_change.tag, motion_change.tag, occlusion.tag, size_change.tag 等
边界框:[x1, y1, x2, y2, x3, y3, x4, y4]
,分别表示左下、右下、右上、左上四个点坐标;非矩形边界框
评估方法:重启机制
评估度量:Accuracy、Robustness、EAO(Expected Average Overlap)、EFO(Equivalent Filter Operations)
评估工具集:
https://github.com/votchallenge/toolkit
https://docs.votchallenge.net/
https://github.com/votchallenge/toolkit-legacy
COCO
年份:2014
Common Objects in Context (COCO) 是微软提出的,该数据集是一个大规模的对象检测(object detection)、分割(segmentation)和图像标注(captioning,看图说话)数据集。特点如下:
- 图片大多数来源于生活中,背景更复杂
- 每张图片上的实例目标个数多,平均每张图片 7.7 个
- 小目标更多
- 评估标准更严格
相关博客:目标检测数据集MSCOCO简介
相关文章:
Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., … & Zitnick, C. L. (2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham.
[PDF]
官方数据集下载地址:https://cocodataset.org/#download
类别:80 目标类,91 stuff categories, 5 captions per image, 250k people with keypoints
图像:330K(> 200K 标注);1.5 million 目标实例;平均每张图片包含的 3.5 个类别和 7.7 个目标;小目标占比较 ImageNet 多;包含大约 41% 的小目标 ($\textbf{area} < 32 \times 32$), 34% 的中等目标 ($ 32 \times 32 < \textbf{area} < 96 \times 96$) 和 24% 的大目标 ($\textbf{area} > 96 \times 96$).
大小:46G(2017)
注释:包含 id, image_id, category_id, segmentation, area, iscrowd, bbox;注释采用 JSON 文件
边界框: [x, y, width, height]
评估方法:one-pass evaluation (OPE)
评估度量:mAP (mean average precision), mAR (mean average recall)
评估工具集:https://github.com/cocodataset/cocoapi
UAV123 & UAV20L
年份:2016
UAV123 & UAV20L 是有沙特阿拉伯图瓦尔的阿卜杜拉国王科技大学 (KAUST)提出,是航空视频数据集和低空无人机目标跟踪基准。
相关博客:【技术向】目标跟踪UAV123数据集下载及使用指南
相关文章:
Mueller, M., Smith, N., Ghanem, B. (2016). A Benchmark and Simulator for UAV Tracking. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds) Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science(), vol 9905. Springer, Cham. https://doi.org/10.1007/978-3-319-46448-0_27
官方数据集下载地址:https://cemse.kaust.edu.sa/ivul/uav123
类别:a wide variety of scenes (e.g. urban landscape, roads, buildings, fields, beaches and a harbor/marina), targets (e.g. cars, trucks, boats, persons, groups, and aerial vehicles), and activities (e.g. walking, cycling, wakeboarding, driving, swimming, and flying)
视频:UAV123 包含 123 个短视频,> 110K 帧;UAV20L 是 UAV123 的子集,包含 20 个长视频
大小:大约 13.7GB
注释:illumination variation; scale variation; partial occlusion; full occlusion; out-of-view; fast motion; camera motion; background clutter; similar object; aspect ratio; viewpoint change; low resolution.
边界框: [x, y, width, height]
评估方法:one-pass evaluation (OPE) and spatial robustness evaluation (SRE)
评估度量:同 OTB50,precision and succes, AUC.
评估工具集:https://cemse.kaust.edu.sa/ivul/uav123
TrackingNet
年份:2018
TrackingNet 也是阿卜杜拉国王科技大学提出的,该数据集是野外目标跟踪的大规模数据集和基准。
相关文章:
Muller, M., Bibi, A., Giancola, S., Alsubaihi, S., & Ghanem, B. (2018). Trackingnet: A large-scale dataset and benchmark for object tracking in the wild. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 300-317).
[PDF]
官方数据集下载地址:
https://exrcsdrive.kaust.edu.sa/exrcsdrive/index.php/s/MAaiTPdOwiPDNlp password: TrackingNet
全部链接请访问如下地址获取:
https://github.com/SilvioGiancola/TrackingNet-devkit
类别:23 目标类,人分为 7 个详细类别
视频:> 30K;平均时长为 16.6s,1443,1266 帧
大小:1.1T
注释:scale variation; aspect ratio change; fast motiong; low resolution; out-of-view etc.
边界框: [x, y, width, height]
评估方法:one-pass evaluation (OPE)
评估度量:success S, precision P, Pnorm
评估工具集:https://github.com/SilvioGiancola/TrackingNet-devkit
GOT-10k
年份:2019
Generic Object Tracking (GOT-10k) 是有中科院自动化所提出,第一作者是 Lianghua Huang,该数据集是一个用于野外通用对象跟踪的大型、高多样性、一次性(one-shot)数据集。
相关文章:
GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild.
L. Huang*, X. Zhao*, and K. Huang. ( *Equal contribution)
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
[PDF] [BibTex]
官方数据集下载地址:http://got-10k.aitestunion.com/downloads
类别:563 目标类,87 运动类
图像:10k
大小:66G
注释:边界框、对象可见率、对象存在与否、对象是否在每帧中被图像切割以及序列的元信息(对象、运动类、URL);注释采用 txt 文档
边界框: [xmin, ymin, width, height]
评估方法:one-shot protocol
评估度量:mAO (mean average overlap), mSR (mean success rate)
评估工具集:https://github.com/got-10k/toolkit
LaSOT
年份:2019
Large-scale Single Object Tracking (LaSOT) 是天普大学,华南理工大学,鹏城实验室,美图-亮风台联合实验室等提出,第一作者是 Heng Fan ,该数据集数据量大,用于评估长时跟踪性能,特点如下:
- Large-scale: 1,550 sequences with more 3.87 millions frames
- High-quality: Manual annotation with careful inspection in each frame
- Category balance: 85 categories with each containing twenty (70 classes) or ten (15 classes) sequences
- Long-term tracking: An average video length of around 2,500 frames (i.e., 83 seconds)
- Comprehensive labeling: Providing both visual and lingual annotation for each sequence
- Flexible Evaluation Protocol: Evaluation under three different protocols: no constraint, full-overlap and one-shot
相关文章:
LaSOT: A High-quality Large-scale Single Object Tracking Benchmark
H. Fan*, H. Bai*, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, Harshit, M. Huang, J Liu, Y. Xu, C. Liao, L Yuan, and H. Ling
International Journal of Computer Vision (IJCV), 2020. (accepted)
LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking
H. Fan*, L. Lin*, F. Yang*, P. Chu*, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, and H. Ling
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
相关博客:亮风台
官方数据集下载地址:http://vision.cs.stonybrook.edu/~lasot/download.html
类别:70
视频:1400
大小:大约 227G
注释:边界框、完全遮挡、视野外标志以及语言描述
边界框: [x, y, width, height]
评估方法:one-pass evaluation (OPE)
评估度量:Precision, Normalized Precision and Success