本篇介绍发表在 ECCV 2020 上的文章:Collaborative Video Object Segmentation by Foreground-Background Integration,前景和背景整合的半监督视频目标分割方法。

文章资源

  • 预印本 (Preprint):arxiv
  • 正式发表版本 (Version of Record, VOR):ECCV 2020
  • 代码仓库:github

题目

文章题目是 Collaborative Video Object Segmentation by Foreground-Background Integration,指明文章的应用领域是视频目标分割(Video Object Segmentation, VOS),文章提出同时考虑前景和背景信息(Foreground-Background Integration)来解决视频目标分割(VOS)任务。

作者

文章作者分别是 Zongxin Yang, Yunchao Wei, Yi Yang。三位作者都是来自澳大利亚悉尼科技大学人工智能中心 ReLER,第一作者杨宗鑫博士当时在该学校攻读计算机科学的博士学位,导师是 Prof. Yi Yang. 同时第一作者在 Baidu Research 实习。

问题定义

文章关注半监督 VOS,其目标是根据第一帧给出的对象掩码(ground-truth mask)在整个视频序列中分割特定对象。

算法设计灵感

目前的半监督视频目标分割很少关注视频中背景区域的特征,而只关注于探索前景对象的鲁棒匹配策略。其实,如果能够去除所有背景,那么前景也很容易被提取出来。而且,很多视频场景中集中有许多相似的对象,例如赛车中的汽车、会议中的人员已经农场中的动物。在这些场景中,忽视整合前景和背景特征会使 VOS 陷入意想不到的背景混乱问题中。如下图,如果像FEELVOS一样只关注前景匹配,那么背景中相似且相同种类的物体(这里是羊)很容易混淆前景物体的预测。这样的观察激励作者,与前景相比背景应该被同等对待,以便可以学习更好的特征嵌入,以缓解背景混乱并提高 VOS 的准确性。

基于上述动机,作者提出了一种通过前景-背景集成(CFBI)进行协作的视频对象分割新颖框架。与之前方法不同的是,不仅对参考帧中的前景目标进行嵌入和匹配,而且还对背景区域进行嵌入和匹配,以缓解背景混乱。此外,框架为每个视频帧提取两种类型的嵌入(即像素级嵌入和实例级嵌入)以覆盖不同尺度的特征。与 FEELVOS 一样,采用像素级嵌入,通过相同的全局和局部机制来匹配所有对象的细节。然而,像素级匹配对于匹配那些具有较大尺度的对象来说不够充分和鲁棒,并且由于像素级的多样性可能会带来意想不到的噪声。因此,作者引入实例级嵌入来帮助通过使用注意机制对大规模对象进行分割。此外,作者提出了一种协作集成器(collaborative ensembler)来聚合前景和背景以及像素级和实例级信息,并隐式地学习它们之间的协作关系。为了更好的收敛,在训练中采用平衡随机裁剪(balanced random-crop)方案,以避免学习的属性偏向背景属性。所有这些提出的策略都可以显着提高用于进行 VOS 的学习协作嵌入的质量,同时保持网络简单而有效。

作者在 DAVIS 和 YouTube-VOS 上进行了广泛的实验,以验证所提出的 CFBI 方法的有效性。没有任何附加的花里胡哨的操作(例如使用模拟数据、微调或后处理),CFBI 在 DAVIS 2016 的验证分割上优于所有其他最先进的方法(CFBI $\mathcal{J}$&$\mathcal{F}$ 89.4%) 、DAVIS 2017 (81.9%) 和 YouTube-VOS (81.4%),同时保持约 5 FPS 的有竞争力的单对象推理速度。通过在测试阶段额外应用多尺度和翻转增强,准确率可以进一步分别提高到 90.1%、83.3% 和 82.7%。

相关工作

半监督视频目标分割

之前的许多半监督 VOS 方法都依赖于测试时的微调。其中,OSVOS 和 MoNet 在测试时对第一帧 ground-truth mask 进行网络微调。 OnAVOS 通过在线自适应机制扩展了第一帧微调,即在线微调。 MaskTrack 使用光流将分割掩模从一帧传播到下一帧。 PREMVOS 使用广泛的微调和合并算法组合了四种不同的神经网络(包括光流网络)。尽管取得了有希望的结果,但所有这些方法都因推理过程中的微调而严重减慢速度。

一些其他工作旨在避免微调并实现更好的运行时间。 OSMN 采用两个网络分别提取实例级信息并进行分割预测。PML 使用最近邻分类器学习像素级嵌入。与 PML 类似,VideoMatch 使用软匹配层将当前帧的像素映射到学习的嵌入空间中的第一帧。继 PML 和 VideoMatch 之后,FEELVOS 通过在当前帧和前一帧之间进行额外匹配来扩展像素级匹配机制。与微调的方法相比,FEELVOS 实现了更高的速度,但精度仍然存在差距。与 FEELVOS 一样,RGMP 和 STMVOS 不需要任何微调。 STMVOS 利用内存网络来存储和读取过去帧的信息,其性能优于之前的所有方法。然而,STMVOS 依赖于使用从多个数据集生成的大量模拟数据的复杂训练程序。然而,上述方法并不关注背景匹配。

注意力机制(Attention Mechanisms)

一些工作将注意力机制引入了卷积网络。紧随其后,SE-Nets 引入了一种轻量级门控机制,专注于通过对通道注意力建模来增强卷积网络的表示能力。受 SE-Net 的启发,CFBI 使用实例级平均池化方法从像素级嵌入中嵌入协作实例信息。之后,进行通道注意机制来帮助指导预测。与采用额外的卷积网络来提取实例级嵌入的 OSMN 相比,文章提出的实例级注意力方法更加高效和轻量。

方法

先前的实践已经很好地探索了学习前景特征嵌入。OSMN 提出进行实例级匹配,但这种匹配方案没有考虑目标外观细节之间的特征多样性,导致粗略的预测。PML 和 FEELVOS 交替采用像素级匹配,对目标的每个像素进行匹配,有效地考虑了特征多样性,取得了良好的性能。然而,当背景中的某些像素与前景中的像素具有相似的外观时,执行像素级匹配可能会带来意想不到的噪声(如 Fig. 1)。

为了克服上述方法提出的问题并从背景中提升前景对象,作者提出了前景-背景集成(CFBI)的协作视频对象分割,如下图所示。使用红色和蓝色分别表示前景和背景。首先,除了从前景像素学习特征嵌入之外,CFBI 还考虑从背景像素嵌入学习以进行协作。这样的学习方案将鼓励目标对象与其相应背景的特征嵌入进行对比,从而相应地促进分割结果。其次,进一步通过前景和背景像素的协作进行像素级和实例级的嵌入匹配。对于像素级匹配,提高了各种目标移动速率下局部匹配的鲁棒性。对于实例级匹配,设计了实例级注意机制来有效地增强像素级匹配。此外,为了隐式聚合学习到的前景和背景以及像素级和实例级信息,采用协作集成器来构建大的感受野并做出精确的预测。

协作像素级匹配(Collaborative Pixel-level Matching)

对于像素级匹配,作者采用类似于 FEELVOS 的全局和局部匹配机制,分别引入来自第一帧和前一帧的引导信息。与之前的方法不同,作者另外结合了背景信息并在局部匹配中应用多个窗口。

为了合并背景信息,作者首先重新设计 FEELVOS 的像素距离以进一步区分前景和背景。令 $B_t$ 和$F_t$ 分别表示帧 $t$ 的背景和所有前景对象的像素集。根据相应的嵌入 $e_p$ 和 $e_q$ 定义当前帧 $T$ 的像素 $p$ 和帧 $t$ 的像素 $q$ 之间的新距离:

$$ D_t(p,q) = \begin{cases} 1 - \frac{2}{1+\exp(\|e_p - e_q\|^2 + b_B)} & \text{if} \quad q \in B_t \\ 1 - \frac{2}{1+\exp(\|e_p - e_q\|^2 + b_F)} & \text{if} \quad q \in F_t \end{cases} \tag{1} $$

其中 $b_B$ 和 $b_F$ 是可训练的背景偏差和前景偏差。作者引入这两个偏差是为了使 CFBI 模型能够进一步学习前景距离和背景距离之间的差异。

前景-背景全局匹配(Foreground-Background Global Matching)

设 $\mathcal{P}_t$ 表示时间 $t$ 时所有像素(步长为 4)的集合,$\mathcal{P}_{t,o} \subseteq \mathcal{P}_t$ 是时间 $t$ 时属于前景对象 $o$ 的像素集合。当前帧 $T$ 的一个像素 $p$ 与第一参考帧(即 $t = 1$)的像素之间的全局前景匹配为:

$$ G_{T,o}(p) = \min_{q\in\mathcal{P}_{1,o}} D_1(p,q) \tag{2} $$

类似地,设 $\mathcal{P}_{t,o} = \mathcal{P}_t \setminus \mathcal{P}_{t,o}$ 表示对象 $o$ 在时间 $t$ 的相对背景像素集合,全局背景匹配为:

$$ \bar{G}_{T,o}(p) = \min_{q\in\bar{\mathcal{P}}_{1,o}} D_1(p, q). \tag{3} $$

前景-背景多局部匹配(Foreground-Background Multi-Local Matching)

在 FEELVOS 中,局部匹配仅限于相邻像素的一个固定范围,但 VOS 中两个相邻帧之间的对象偏移是可变的,如下图所示。因此,作者建议将局部匹配机制应用于不同的情况尺度并让网络学习如何选择合适的局部尺度,这使得框架对物体的各种移动速率更加鲁棒。值得注意的是,作者使用最大窗口的局部匹配的中间结果来计算其他窗口。因此,多局部匹配的计算资源的增加可以忽略不计。

形式上,设 $K = { k_1, k_2, …, k_n }$ 表示所有邻域大小,$H(p, k)$ 表示在 $x$ 和 $y$ 方向上距 $p$ 最多 $k$ 个像素的像素邻域集,当前帧 $T$ 与其前一帧 $T − 1$ 之间的前景多局部匹配是

$$ ML_{T,o}(p, K) = \{ L_{T,o}(p, k_1), L_{T,o}(p, k_2), \cdots, L_{T,o}(p,k_n) \}, \tag{4} $$

这里,

$$ L_{T,o}(p,k)= \begin{cases} \min_{q\in\mathcal{P}_{T-1,o}^{p,k}} D_{T-1}(p,q) & \text{if} \quad \mathcal{P}_{T-1,o}^{p,k} \neq \emptyset \\ 1 & \text{otherwise}. \end{cases} \tag{5} $$

这里, $\mathcal{P}_{T-1,o}^{p,k} := \mathcal{P}_{T-1, o} \cap H(p,k)$ 表示局部窗口(或邻域)中的像素。背景多局部匹配是

$$ \bar{ML}_{T,o}(p,K) = \{ \bar{L}_{T,o}(p,k_1), \bar{L}_{T,o}(p,k_2), \cdots, \bar{L}_{T,o}(p,k_n) \}, \tag{6} $$

这里

$$ \bar{L}_{T,o}(p,k)= \begin{cases} \min_{q\in\bar{\mathcal{P}}_{T-1,o}^{p,k}} D_{T-1}(p,q) & \text{if} \quad \bar{\mathcal{P}}_{T-1, o}^{p,k} \neq \emptyset \\ 1 & \text{otherwise}. \end{cases} \tag{7} $$

类似的,这里 $\bar{\mathcal{P}}_{T-1,o}^{p,k} := \bar{\mathcal{P}}_{T-1,o} \cap H(p,k)$ .

除了全局和多局部匹配图之外,作者还将前一帧的像素级嵌入特征和掩模与当前帧特征连接起来。 FEELVOS 展示了连接先前掩码的有效性。在此之后,作者凭经验发现引入先前的嵌入可以进一步提高性能($\mathcal{J}$&$\mathcal{F}$)约 0.5%。

总之,CFBI 的协作像素级匹配的输出是(1)当前帧的像素级嵌入,(2)前一帧的像素级嵌入和掩模,(3)多局部匹配图和(4)全局匹配图,如 Fig. 2 底部框所示。

协作实例级注意力(Collaborative Instance-level Attention)

如 Fig. 2 右侧所示,作者进一步设计了一种协作实例级注意力机制来指导大规模对象的分割。在获得第一帧和前一帧的像素级嵌入后,根据它们的掩码将它们分为前景和背景像素(即 $P_{1,o}$、 $\bar{\mathcal{P}}_1,o$ 、 $P_{T − 1,o}$ 和 $\bar{\mathcal{P}}_{T − 1,o}$ ) 。然后,对每组像素应用通道平均池化,生成总共四个实例级嵌入向量,并将这些向量连接成一个协作实例级引导向量。因此,引导向量包含来自第一帧和前一帧以及前景和背景区域的信息。

为了有效地利用实例级信息,作者采用了注意力机制来调整协作集成器(CE, Collaborative Ensembler)。如下图展示了详细的说明。受 SE-Nets 的启发,作者利用一个全连接 (FC) 层(作者发现此设置比使用 SE-Net 采用的两个 FC 层更好)和一个非线性激活函数为 CE 中每个 Res-Block 的输入构建一个门。门将按通道调整输入特征的比例。

通过引入协作实例级注意力,可以利用全面的前景-背景信息来进一步指导预测。具有大(实例级)感受野的信息对于缓解局部模糊性很有用,这对于小(像素级)感受野来说是不可避免的。

协作集成器(Collaborative Ensembler, CE)

在 Fig. 2. 的右下角,作者设计了一个协作集成器,用于制作大感受野来聚合像素级和实例级信息,并隐式学习前景和背景之间的协作关系。受到 ResNets 和 Deeplabs 的启发,它们都在图像分割任务中表现出了显着的表征能力,CE 使用下采样-上采样结构,其中包含三个阶段的 Res-Blocks 和一个 Atrous Spatial金字塔池 (ASPP) 模块。第 1、2、3 阶段的 Res-Block 数量依次为 2、3、3。此外,采用扩张卷积层来有效地改善感受野。一个阶段中 Res-Blocks 的 3 × 3 卷积层的扩张率分别为 1, 2, 4(或阶段 1 为 1, 2)。在第 2 阶段和第 3 阶段开始时,特征图将由第一个 Res-Block 以步长为 2 进行下采样。在这三个阶段之后,采用 ASPP 和解码器模块来进一步增加感受野,对特征尺度进行上采样,并与低级骨干特征协作微调预测。

执行细节

为了更好的收敛,作者修改了先前方法中的随机裁剪增强和训练方法。

平衡随机裁剪(Balanced Random-Crop)

如下图所示,VOS 数据集上前景和背景像素数之间存在明显的不平衡。这样的问题通常会使模型更容易对背景属性产生偏见。为了缓解这个问题,作者采用平衡随机裁剪方案,该方案使用相同的裁剪窗口裁剪一系列帧(即第一帧、前一帧和当前帧),并限制第一帧包含足够的前景信息。该限制方法简单而有效。具体来说,平衡随机裁剪将决定随机裁剪的帧是否包含足够的前景对象像素。如果没有,该方法将继续进行裁剪操作,直到获得预期的裁剪操作。

顺序训练(Sequential Training)

在训练阶段,FEELVOS 在一次迭代中仅预测一个步骤,指导掩模 mask 来自 ground-truth 数据。 RGMP 和 STMVOS 在训练时使用之前的指导信息(掩模或特征记忆),与推理阶段更加一致,表现更好。在评估阶段,先前的引导掩模始终由网络在先前的推理步骤中生成。

遵循 RGMP,作者在每次 SGD 迭代中使用一系列连续帧来训练网络。在每次迭代中,随机采样一批视频序列。对于每个视频序列,随机采样一帧作为参考帧,并连续采样 N + 1 帧作为前一帧和当前帧序列(共 N 帧)。在预测第一帧时,使用前一帧的 ground-truth 作为前一个掩码。当预测后续帧时,使用最新的预测作为前一个掩模。

训练细节

继 FEELVOS 之后,作者使用 DeepLabv3+ 架构作为网络的骨干。然而,文章的主干网络基于扩张的 Resnet-101,而不是 Xception-65,以节省计算资源。在主干网络中应用批量归一化(BN),并在 ImageNet 和 COCO 上对其进行预训练。主干之后是一个深度可分离卷积,用于提取步长为 4 的像素级嵌入。

作者将 $b_B$ 和 $b_F$ 初始化为 0。对于多局部匹配,使用双线性插值进一步将嵌入特征下采样到一半大小,以节省 GPU 内存。此外,设置中的窗口大小为 $K = {2, 4, 6, 8, 10, 12}$。对于协作集成器,应用组归一化(GN)和门控通道变换来提高使用小批量时的训练稳定性和性能。对于顺序训练,当前序列的长度为 N=3,这使得计算资源和网络性能之间得到了更好的平衡。

使用 DAVIS 2017 训练集(60 个视频)和 YouTubeVOS 训练集(3471 个视频)作为训练数据。作者将所有视频降采样到 480P 分辨率,这与 DAVIS 中的默认设置相同。采用动量为 0.9 的 SGD 并应用自举交叉熵损失,仅考虑 15% 最难的像素。在训练阶段,将 BN 的参数冻结在主干中。对于 YouTubeVOS 上的实验,使用 0.01 的学习率进行 100000 个 epoch,每个 GPU 的批量大小为 4 个视频(即总共 20 帧),使用 2 个 Tesla V100 GPU。 YouTube-VOS 上的训练时间约为 5 天。对于 DAVIS,使用 0.006 的学习率进行 50000 个 epoch,使用 2 个 GPU,每个 GPU 的批量大小为 3 个视频(即总共 15 帧)。应用翻转、缩放和平衡随机裁剪作为数据增强。裁剪后的窗口大小为 465 × 465。对于多尺度测试,分别对 YouTube-VOS 和 DAVIS 应用 {1.0, 1.15, 1.3, 1.5} 和 {2.0, 2.15, 2.3} 的尺度。 CFBI 在 PyTorch 和 PaddlePaddle 中取得了类似的结果。

实验

遵循之前最先进的方法,作者在 YouTubeVOS、DAVIS 2016 和 DAVIS 2017 上评估 CFBI。为了对 YouTube-VOS 进行评估,在 YouTube-VOS 训练集(3471 个视频)上训练 CFBI 模型。对于 DAVIS,在 DAVIS-2017 训练集(60 个视频)上训练 CFBI 模型。 DAVIS 2016 和 2017 均使用在 DAVIS 2017 上训练的相同模型进行评估,以便与之前的算法进行公平的比较。此外,参考一些最新算法,使用 DAVIS 2017 和 YouTube-VOS 训练得到在 DAVIS 上的评估结果。

评估指标是 $\mathcal{J}$ 分数,计算为预测和真实掩模之间的平均 IoU,以及 $\mathcal{F}$ 分数,计算为预测边界和真实边界之间的平均边界相似性度量,以及它们的平均值($\mathcal{J}$&$\mathcal{F}$)。使用官方评估服务或工具进行评估。

与最先进的方法进行比较

YouTube-VOS

YouTube-VOS 是最新的用于多对象视频分割的大规模数据集。与包含 120 个视频的流行 DAVIS 基准相比,YouTube-VOS 大约大 37 倍。具体来说,数据集包含训练集中的 3471 个视频(65 个类别)、验证集中的 507 个视频(另外 26 个未见过的类别)和测试集中的 541 个视频(另外 29 个未见过的类别)。由于未见过的对象类别的存在,YouTube-VOS 验证集非常适合衡量不同方法的泛化能力。

如下表所示,将 CFBI 与 2018 年验证(validation 2018)和 2019 年测试分组(testing 2019 splits)的现有方法进行了比较。在不使用任何花里胡哨技巧的情况下,比如在测试时进行微调或对更大的增强模拟数据进行预训练,CFBI 获得了 81.4% 的平均分数,显着优于所有其他方法在每一个评估指标中。特别是,81.4% 的结果比之前最先进的方法 STMVOS 高 2.0%,STMVOS 使用的大量模拟数据进行训练。如果没有模拟数据,STMVOS 的性能将从 79.4% 下降到 68.2%。此外,作者通过在评估过程中应用多尺度和翻转策略,将性能进一步提高到 82.7%。

Seen Seen Unseen Unseen
Methods F S Avg $\mathcal{J}$ $\mathcal{F}$ $\mathcal{J}$ $\mathcal{F}$
Validataion 2018 Split
AG 66.1 67.8 - 60.8 -
PReM $\surd$ 66.9 71.4 75.9 56.5 63.7
BoLT $\surd$ 71.1 71.6 - 64.3 -
$STM^-$ 68.2 - - - -
STM $\surd$ 79.4 79.7 84.2 72.8 80.9
CFBI 81.4 81.1 85.8 75.3 83.4
$CFBI^{MS}$ 82.7 82.2 86.8 76.9 85.0
Validataion 2019 Split
CFBI 81.0 80.6 85.1 75.2 83.0
$CFBI^{ms}$ 82.4 81.8 86.1 76.9 84.8
Testing 2018 Split
$MST^*$ $\surd$ 81.7 80.0 83.3 77.9 85.5
$EMN^*$ $\surd$ 81.8 80.7 84.7 77.3 84.7
CFBI 81.5 79.6 84.0 77.3 85.3
$CFBI^{MS}$ 82.2 80.4 84.7 77.9 85.7

这里 F、S 和 * 分别表示测试时的微调,在训练过程中使用模拟数据,在评估时进行模型集成。 $CFBI^{MS}$ 表示在评估中使用多尺度和翻转策略。

作者还将 CFBI 与 2019 年测试中的两个最佳结果进行了比较,即第二届大规模视频对象分割挑战赛中的排名 1 (EMN) 和排名 2 (MST) 的结果。在不应用模型集成的情况下,文章的单模型结果 (82.2%) 在未见和平均指标上优于 Rank 1 结果 (81.8%),这进一步证明了 CFBI 模型的泛化能力和有效性。

DAVIS 2016

DAVIS 2016 包含 20 个视频,每个视频都用高质量掩模注释单个目标对象。作者将提出的 CFBI 方法与最先进的方法进行比较(如下表)。在 DAVIS-2016 验证集上,作者的方法使用额外的 YouTube-VOS 训练集进行训练,平均得分为 89.4%,略优于 STMVOS (89.3%),一种使用前面提到的模拟数据的方法。 DAVIS 上的 CFBI 和 STMVOS 之间的准确度差距小于 YouTube-VOS 上的差距。一个可能的原因是 DAVIS 太小,容易过拟合。设置上与文章相同的更公平的基线(即 FEELVOS)相比,所提出的 CFBI 不仅实现了更好的准确度(89.4% vs. 81.7%),而且还保持了相当快的推理速度(0.18s vs.0.45s) 。应用多尺度和翻转进行评估后,可以将性能从 89.4% 提高到 90.1%。然而,这种策略将花费更多的推理时间(9 秒)。

Methods F S Avg $\mathcal{J}$ $\mathcal{F}$ t/s
OSMN - 74.0 0.14
PML 77.4 75.5 79.3 0.28
VideoMatch 80.9 81.0 80.8 0.32
$RGMP^-$ 68.8 68.6 68.9 0.14
RGMP $\surd$ 81.8 81.5 82.0 0.14
A-GAME(Y) 82.1 82.2 82.0 0.07
FEELVOS(Y) 81.7 81.1 82.2 0.45
OnAVOS $\surd$ 85.0 85.7 84.2 13
PReMVOS $\surd$ 86.8 84.9 88.6 32.8
STMVOS $\surd$ 86.5 84.8 88.1 0.16
STMVOS(Y) $\surd$ 89.3 88.7 89.9 0.16
CFBI 86.1 85.3 86.9 0.18
CFBI(Y) 89.4 88.3 90.5 0.18
$CFBI^{MS}$(Y) 90.7 89.6 91.7 9

这里 (Y) 表示使用 YouTube-VOS 进行训练.

DAVIS 2017

DAVIS 2017 是 DAVIS 2016 的多对象扩展。DAVIS 2017 的验证集由 30 个视频中的 59 个对象组成。接下来,在流行的 DAVIS 2017 基准上评估 CFBI 模型的泛化能力。

如下表所示,CFBI 比 FEELVOS 有了显着的改进(81.9% vs. 71.5%)。此外,在不使用模拟数据的情况下的 CFBI 比之前最先进的方法 STMVOS 略好(81.9% vs. 81.8%)。在下图展示了一些与STMVOS 进行比较的例子。与之前的实验相同,评估的增强可以进一步将结果提高到 83.3% 的更高分数。作者还在 DAVIS 2017 的测试部分评估了 CFBI,这比验证部分更具挑战性。如下表所示,CFBI 的表现明显优于 STMVOS (72.2%) 2.6%。通过应用增强,还可以将结果进一步提高到 77.5%。强有力的结果证明作者的方法在最新方法中具有最好的泛化能力。

Methods F S Avg $\mathcal{J}$ $\mathcal{F}$
Validation Split
OSMN 54.8 52.5 57.1
VideoMatch 62.4 56.5 68.2
OnAVOS $\surd$ 63.6 61.0 66.1
RGMP $\surd$ 66.7 64.8 68.6
A-GAME(Y) 70.0 67.2 72.7
FEELVOS(Y) 71.5 69.1 74.0
PReMVOS $\surd$ 77.8 73.9 81.7
STMVOS $\surd$ 71.6 69.2 74.0
STMVOS(Y) $\surd$ 81.8 79.2 84.3
CFBI 74.9 72.1 77.7
CFBI(Y) 81.9 79.1 84.6
$CFBI^{MS}$(Y) 83.3 80.5 86.0
Testing Split
OSMN 41.3 37.7 44.9
OnAVOS $\surd$ 56.5 53.4 59.6
RGMP $\surd$ 52.9 51.3 54.4
FEELVOS(Y) 57.8 55.2 60.5
PReMVOS $\surd$ 71.6 67.5 75.7
STMVOS(Y) $\surd$ 72.2 69.3 75.2
CFBI(Y) 74.8 71.1 78.5
$CFBI^{MS}$(Y) 77.5 73.8 81.1

定性结果

在下图中显示了 CFBI 在 DAVIS 2017 (81.9%) 和 YouTube-VOS (81.4%) 验证集上的更多结果。可以看出,CFBI 能够在具有挑战性的情况下产生准确的分割,例如大的运动、遮挡、模糊和类似的物体。在绵羊视频中,CFBI 成功跟踪了拥挤羊群中的五只选定的绵羊。在柔道视频中,CFBI 未能分割出正确人的一只手。一个可能的原因是两个人的外貌太相似,位置也太接近。此外,由于动作过快,他们的手显得模糊。

消融研究

作者分析了 CFBI 中提出的每个组件在 DAVIS-2017 验证集上的消融效果。根据 FEELVOS,作者仅使用 DAVIS-2017 训练集作为这些实验的训练数据。

背景嵌入(Background Embedding)

如下表所示,作者首先分析了去除背景嵌入而仅保留前景的影响。如果没有任何背景机制,文章的方法的结果从 74.9% 大幅下降到 70.9%。这一结果表明,协同嵌入前景和背景特征具有重要意义。此外,像素级匹配或实例级注意力中背景信息的缺失会使结果分别降低至 73.0% 或 72.3%。因此,与实例级注意力相比,像素级匹配性能对背景嵌入的影响更敏感。造成这种现象的一个可能的原因是存在一些与前景相似的背景像素的可能性高于一些背景实例。最后,作者从距离度量中删除前景和背景偏差 $b_F$ 和 $b_B$,结果下降到 72.8%,这进一步表明应单独考虑前景像素之间的距离和背景像素之间的距离。

P I Avg $\mathcal{J}$ $\mathcal{F}$
$\surd$ $\surd$ 74.9 72.1 77.7
$\surd^*$ $\surd$ 72.8 69.5 76.1
$\surd$ 73.0 69.9 76.0
$\surd$ 72.3 69.1 75.4
70.9 68.2 73.6

这里,P 和 I 分别表示像素级匹配和实例级注意力。 * 表示去除前景和背景偏差。

其他组件(Other Components)

其他提议组件的消融研究如下表所示。第 0 行(74.9%)是提议的 CFBI 的结果,第 6 行(68.3%)是作者复制的基线方法。在相同的设置下,CFBI 显着优于基线。

Ablation Avg $\mathcal{J}$ $\mathcal{F}$
0 Ours(CFBI) 74.9 72.1 77.7
1 w/o multi-local windows 73.8 70.8 76.8
2 w/o sequential training 73.3 70.8 75.7
3 w/o collaborative ensembler 73.3 70.5 76.1
4 w/o balanced random-crop 72.8 69.8 75.8
5 w/o instance-level attention 72.7 69.8 75.5
6 baseline(FEELVOS) 68.3 65.6 70.9

在第 1 行中,作者仅使用一个局部邻域窗口按照 FEELVOS 的设置进行局部匹配,这将结果从 74.9% 降到了 73.8%。这表明文章的多本地匹配模块比 FEELVOS 的单本地匹配模块更加稳健和有效。值得注意的是,多局部匹配的计算复杂度主要取决于最大局部窗口大小,因为作者使用最大窗口局部匹配的中间结果来计算较小的窗口。

在第 2 行中,作者通过使用真实掩码而不是网络预测作为先前的掩码来替换顺序训练。通过这样做,CFBI 的性能从 74.9% 下降到 73.3%,这表明了作者在相同设置下顺序训练的有效性。

在第 3 行中,作者用 4 个深度可分离的卷积层替换了协作集成器。该架构与 FEELVOS 的动态分割头相同。与我们的协作集成器相比,动态分割头的感受野要小得多,并且性能差 1.6%。

在第 4 行中,作者在训练过程中使用正常随机裁剪而不是平衡随机裁剪。在这种情况下,性能也下降了 2.1% 至 72.8%。正如预期的那样,文章提出的平衡随机裁剪成功地缓解了模型形式对背景属性的偏差。

在第 5 行中,作者禁用实例级注意力作为协作集成器的指导信息,这意味着文章仅使用像素级信息来指导预测。在这种情况下,结果甚至进一步恶化到72.7,这证明实例级信息可以进一步帮助像素级信息的分割。

总之,文章解释了 CFBI 提议的每个组成部分的有效性。对于 VOS 来说,需要同时嵌入前台和后台特征。此外,通过结合像素级信息和实例级信息,并在两个连续帧之间的匹配中使用更多的局部窗口,该模型将更加鲁棒。除此之外,所提出的平衡随机裁剪和顺序训练在提高训练性能方面很有用但很简单。

结论

本文通过引入协作前景-背景集成,提出了一种新颖的视频对象分割框架,并在三个流行的基准测试上取得了新的最先进的结果。具体来说,将前景目标及其相应背景的特征嵌入强加为对比。此外,集成了像素级和实例级嵌入,使框架对各种对象尺度具有鲁棒性,同时保持网络简单和快速。