GHOST

Simple Cues Lead to a Strong Multi-Object Tracker[1]

作者是来自慕尼黑工业大学和慕尼黑机器学习中心的Jenny Seidenschwarz等人,论文引用[1]:Seidenschwarz, Jenny et al. “Simple Cues Lead to a Strong Multi-Object Tracker.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 13813-13823.

Time

  • 2023.Apr

Key Words

  • domain-specific knowledge
  • 一句话来说:在之前的TbD的范式基础上,提出了两个方案:一个是实时域适应:对于reID,源数据集的statistics可能和target ones不匹配,对于MOT任务,每个sequence的statistics可能都不一样,代表着一个新的domain,所以用one-the-fly DA来防止reID models应用在不同的sequences上的时候的性能退化。这里作者用了current batch的均值和方差来更新BN layer;另外,在计算distance computation的时候,对active tracks和inactive tracks分开处理,用不同match threshold 来处理active tracks和inactive tracks

总结

  1. 很长时间以来,MOT中的大多数的范式是Tracking-by-detection(TBD)。目标先进行检测,然后关联。对于关联,大多数的模型利用motion和外观cues,例如reid。最近基于attention的方法提出用数据驱动的方式来学习cues。有很好的效果。这篇文章中,作者提出了疑问:简单的TBD的方法能够也实现端到端的性能。作者提出了两个关键的要素,使得标准的reid网络在基于外观的跟踪方面表现出色。作者分析了它的失败的情况,将appearance features和简单的运动模型结合会有一个很好的跟踪结果。
  1. MOT的主要范式是tracking-by-detection。有逐帧的目标检测和数据关联两个步骤。最简单的用于在线tracker的关联方法是 用匈牙利算法进行逐帧的匹配。匹配通常是通过一些例如appearance, reid特征, motion cues来实现的。即使最近的trackers提出了data-driven 的motion 先验或者 appearance cues,包含了额外的reID 模型。更多最近的基于Transformer的trackers通过frames和tracked objects之间的自注意力或者交叉注意力来学习必要的cues。虽然这隐式地消除了通常嵌入在手工设计的外观和运动线索中的任何启发式方法,是一个通往更通用的trackers的道路,训练策略比较复杂,训练这样的模型,数据量需要足够大,以至于MOT数据集不满足需求,方法依赖于在例如CrowdHuman这样检测的数据集上进行预训练。

  2. 是否要遵循learning everything in MOT这个路径是questionable,当这里有很多的指导如何定义和利用的prior的时候,例如appearance和motion cues。如本文所示,为了利用这些cues,需要做很多的observatiosn,这些可能是被大家忽略的。作者的第一个观察是:简单地用ReID网络用于外观匹配时对于MOT场景不够的,将一些SOTA的 reid方法进行可视化。展示了reid的性能不一定转化为MOT性能。找到了造成reid模型性能较弱的两个问题:重识别(reID)模型需要考虑在不同时间范围内预期的不同挑战,即在附近帧中,物体的外观变化会非常小,而在较长的时间间隔中,可能会出现更显著的变化,例如由(部分)遮挡引起的变化;此外,重识别性能在多目标跟踪(MOT)序列之间往往不一致,因为它们的图像统计数据各不相同,而这与相应的重识别训练数据集的相对稳定条件有所不同。作者提出了两个简单但是关键的设计来克服上述的问题。例如on-the-fly domain adaptation不同的策略 for active and inactive tracks。另外,在不同的visibility条件下做了大量的分析,遮挡时间,相机运动,来决定哪种情况下reID是不够的和需要一个运动模型。将reID和一个简单的线性运动模型用加权求和结合起来,因此cues能够提供更多的weight when needed for different datasets。 作者的findings最后导致了提出的Good Old Hungarian Simple Tracker or GHOST。贡献如下:

    • 提供了关键的key design choices,能够提升reID模型的性能。
    • 广泛地分析了哪种情况下appearance 是不够的,需要motion来back up。 在本文中,作者希望展示 domain-specific knowledge的重要性以及它带来的影响,即使是在一些简单的老的模型上。我们的观察结果——即领域适应的重要性、短期与长期关联的不同处理方式,以及运动与外观之间的相互作用——是直观的,几乎深植于跟踪领域研究者的潜意识中。它们被最近的方法忽略了。引入简单但是更强的tracker,作者希望它们的观察能够启发future work,将这些observations集成到复杂的模型之中,进一步提高SOTA
  3. 近些年,TbD 是MOT中最常见的范式,行人首先通过目标检测器检测出来,然后,detections通过逐帧关联,利用motion、location、appearance等cues来形成对应的identity的轨迹。这个association可以是逐帧的for online applications或者是离线的 in a track-wise manner over the sequence。

    • Graph-base Approaches:一个常见的进行数据关联的形式是将每个detection视为graph中的一个node, edges在时间域上连接一些nodes,形成轨迹。可以用最大流或者最小成本路径来决定哪些nodes进行连接。最近的进展是将track-wise graph-based models 和 神经网络进行结合。
    • Motion-based Association:不同于介于graph的方法,很多TbD的方法通过直接利用detections和existing trajectories的motion和location cues来进行逐帧的关联。对于短期的preservation,这些trackers利用两个邻近帧的位移,这些使得它们能够利用空间位置相邻用于匹配。考虑这个idea,tracking-by-regression的方法利用目标检测器来回归bbox positions,最近的进展引入了基于transformer的方法来进行tracking following tracking-by-attention paradigm。这些方法在短期的associations上表现很好,但是,这些方法需要复杂的训练策略。相比于其它的方法,作者展示了一个简单的linear motion model足以满足大多数场景中的短期关联的建模问题。在移动相机或者需要长期的关联场景中,有遮挡的场景,纯粹基于motion的trackers需要结合appearance-based cues。
    • Appearance-based association:为了实现在长期关联的场景中的更好的性能,大量的方法利用额外的基于appearance的reid网络(将appearance cues编码,来充识别persons after occlusions),为了进一步利用这个方向,最近一个工作提出了,在训练过程中,利用嵌入信息来训练检测网络的方法。一些工作提出了联合detection和embeddings in a multi-task setting。有一些引入了更加平衡的训练策略,来更好地利用cues的协同作用。在motion cues之外,额外利用appearance 会要求更复杂的关联策略。复杂和高度不同的训练计划,或不同的推理策略使得它很难得出真正推动该领域进步的结论。相比之下,GHOST不依赖于复杂的步骤,结合了lightweight 和spcied-up appearance cues in a simple yet strong TbD tracker,只需要很少的训练数据。
    • Person ReID and Domain Adaptation:相比于tracking domain,person reID的目标是从一个大的gallery中检索person bboxes,该gallery根据外观线索显示与给定的query image相同的人。然而,SOTA的reID在out-of-domain samples上评估的时候,会有性能下降。在应用的时候,person reID模型应用在不同的摄像头。出现了几种跨数据集评估方法,将知识从给定源(given source, i.e. training to a give target)转移到给定目标(test domain utilizing domain adaptation,DA)。 DA依赖于adapting Batch Normalization statistics 来解决不同domains之间的distribution shifts。weight matrix和BN statistics 存储label和domain-related knowledge。为了更新后者,BN layers的statistics可以通过对所有的target domain images取 mean和variance,通过用伪标签或者结合train和test dataset来重新训练。除了统计数据,学习到的参数 \(\beta\)\(\gamma\) 也能更新。受最近的进展的启发,作者增强它们的appearance model,用一个简单的 on-the-fly domain adaptation方法,来更好地适应MOT,这直接使模型学习的训练数据集统计数据(source)适应于序列(sequences)
  4. 方法:基于匈牙利的TbD的范式,GHOST结合了被忽略的design choices:

    • 一个简单的tracking-by-detection tracker:作者的tracker输入的时候a set of detections,每个有 \(o_i = (f_i, p_i)\)\(f_i\) 是从raw detection pixels中用CNN得到的appearance feature vectors, \(p_i\) 是image coordinates中的bbox,一个trajectory 或者 track定义为 time-ordered detections \(T_j = {o_{j1},...,o_{jNj}}\)\(N_j\) 是 轨迹 j中的detections的数量。每个轨迹有一个对应的预测的position \(\hat{p_j}\) at time step t,由线性运动模型产生。在tracking期间,detections分配给了trajectories。如果没有new detection添加到trajectory中,将它的状态设为inactive,否则就是active。用一个Memory bank,保持inactive trajectories最多50帧。目标是找到轨迹 \(T = {T_1,..., T_M}\),能够最好地将detections匹配到潜在的gt trajectories。

    为了这个目标,用bipartite matching,通过匈牙利算法进行逐帧的关联existing detections。这个assignment is driven by a cost matrix that compares new detections with the tracks already obtained in previous frames。为了构成这个cost matrix,用appearance features, motion cues。最后的tracker利用它们的简单的加权和。将detection-trajectory pairs 在Matching之后进行过滤。

    • Strong appearance model for MOT:作者的appearance model是基于resnet50,有一个额外的全连接层用于downsampling,还有一个在common person reID数据集上进行训练。值得注意的是,作者没有在任何MOT数据集上训练reID model的任何一个Part。像作者是实验中展示的那样,这个基本的reID模型在MOT数据集上表现不是很好,因此,作者提出两个设计,使得appearance model stronger:1. 对active 和inactive tracks分别处理;2. 增加on-the-fly domain adaption。作者分析了detections和tracks之间的distances in given MOT sequences。

    • Appearance distance histograms。作者分析了new detections和active or inactive tracks之间的histograms of distances。

    • Different handling of active and inactive tracks:当一个identity的appearance embeddings在两个连续帧之间几乎没有变化的时候,同一个identity的embedding在遮挡之前和之后显示了很大的distances。从图中可以看出,两个深色的histograms差异很大,表明不同的active 或者inactive tracks 之间的treatment是必要的;另外,可以看到对于inactive tracks的negative 和positive matches之间的overlap,表明遮挡之后的内在的matching的困难。 因此,对于active tracks,利用检测到的detection的appearance feature用于distance 计算;对于inactive tracks,计算所有inactive track \(k\) 中的所有 \(N_k\) 个detections 和new detection i,利用这些distances的mean作为proxy distance。

    这个proxy distance 导致更加鲁棒的estimate of the true underlying distance between a detection 和一个inactive track。因此,和使用inactive track的single feature vector相比,利用proxy distance 可以得到更好的分离直方图。

    另外,active 和 inactive 不同的histograms 在bipartite matching期间,需要不同的处理。我们通过不同的阈值将活动轨迹和非活动轨迹到相同身份(深色)及不同身份(浅色)检测结果的距离直方图进行划分。针对活动轨迹和非活动轨迹分别采用不同的匹配阈值(act和inactive),使我们能够保持单一的匹配过程。与级联匹配相比,我们的分配方法更为简洁,避免了在每一帧中多次执行二分图匹配。

    • on-the-fly domain adaptation:近年来,行人重识别领域的发展提出应用领域适应(DA)技术,因为源数据集的统计特性可能与目标数据集不匹配。对于MOT,这可能更严重,因为每个sequence 是不同的statistics,代表一个新的target domain。因此,作者提出了on-the-fly DA,为了防止应用到多个MOT序列的时候reID 模型的退化。这使得能够在所有sequences上利用 reID。 最近,一些person reID上的工作,通过将normalization layers适应 instance batch, meta batch 或者 camera batch normalization layers,利用DA的思路,实现跨数据集的泛化。相比于上述提到的approaches,利用当前batch的features的mean和variance。
    1. 在本文中,作者展示了old TbD trackers 能够泛化到高度不同的数据集。对于作者的简单的匈牙利tracker GHOST,作者引入了 spiced-up appearance model,对active 和inactive trajectories 分开处理。另外,通过应用 on-the-fly DA 能够适应到test sequences。我们分析了外观模型与简单线性运动模型在可见性、遮挡时间及相机移动方面的不足之处。基于以上的分析,作者决定用一个加权求和,在需要的,给任一个cue更多的权重。