hybrid-SORT

发表于 2025-01-06 更新于 2025-03-13 分类于 Papers 阅读次数：本文字数： 3.1k 阅读时长 ≈ 11 分钟

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking^[1]

作者是来自大连理工和深圳TVT公司的Mingzhan Yang等人，论文引用[1]:Yang, Ming-Hsuan et al. “Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.” AAAI Conference on Artificial Intelligence (2023).

Time

2024.Jan

Key Words

weak cues like confidence state and height state
一句话总结：在OC-SORT的基础上，除了常用的stong cues例如apppearance feature和spatial cues(IoU)，还引入了weak cues例如confidence state和height state for matching。

总结

多目标旨在检测和逐帧关联所有理想的目标。大多数的方法通过显式或隐式的利用strong cues，例如空间和外观信息来完成这个任务，展示出了很强的instance-level的判别能力。然而你，当目标遮挡或者聚集的时候，空间和外观信息可能会变得模糊，因为目标的高度重叠。在本文中，展示了可以通过利用weak cues来补偿strong cues来完成这个任务。沿着速度的方向，引入置信度和height state作为潜在的weak cues。有着卓越的性能，作者的方法仍然保持Simple, Online, Real-time的特性。另外，作者的方法展示了对于多个trackers和场景的泛化性，能够即插即用，training-free。将这个方法应用到5个不同的有代表性的trackers上的时候，有很大的提升。

最近，tracking-by-detection是MOT中最流行的范式，将这个问题划分为两个子任务：检测和关联。首先检测每帧中的目标；然后在不同的帧中对它们进行关联。关联主要是通过显式地或隐式地利用strong cues来解决，包括空间和外观信息。这个设计是合理的，因为这些strong cues能够提供instance-level discrimination。然而，常用的strong cues在一些有挑战性的场景下例如遮挡或者聚集，会发生退化。特别地，当两个物体高度重叠的时候，detections和估计的tracklet locations之间的IoU会变得模糊，目标的外观特征会被前景的目标所主导。
在图1中的weak cues，展示了weak cues例如 confidence state, heigh state和velocity direction，这些能够缓解当strong cues不可靠的时候的模糊的关联。然而，据作者所知，weak cues被大多数的方法忽略了，它们只在确定的目标中处理可靠的discrimination。如图1所示，confidence state是唯一可靠的，用于区分ID2和其它的ID
在本文中，作者选择confidence state和height state所谓潜在的weak cues的类型，再加上OC-SORT中用的velocity direction。这些confidence state能够显式地指示遮挡/被遮挡的关系，提供一个重要的cues。height state是目标的一个稳定的特性，对于目标不同的姿态比较鲁棒，包含了一定程度的深度信息。
为了保持Simple, Online, Real-time的特性，提出了简单有效的策略来利用weak cues。称之为Tracklet Confidence Modeling(TCM) 和 Height Modulated IoU(HMIoU)。对于TCM，用卡尔曼滤波器和线性预测来估计tracklets的confidence state，之后作为一个metric来关联tracklets。对于HMIoU，height state也是通过卡尔曼滤波器进行建模。用于关联的height cost matrix首先定义为沿着hegith axis的IoU for estimated tracklet box和detection box，然后和标准的、基于area metric的IoU matrix进行融合。
为了评估设计的泛化能力，将这个设计用到5个不同的代表性的tracker上，包括SORT,DeepSORT，MOTDT和OC-SORT。进一步，为了增强SORT方法的性能，将OC-SORT作为baseline，首先修改了OC-SORT中的velocity direction modeling,(OCM)，通过扩展box center到四个box corners，将固定的temporal interval扩展到multiple intervals。其次，跟着ByteTrack，包含了一个额外的关联阶段用于低置信度的detection。连同TCM和HMIoU, Hybrid-SORT实现了很好的性能。主要的贡献如下：
- 通过引入weak cues例如confidence state, height state，velocity direction，作为strong cues的补助。
- 引入了Tracklet Confidence Modeling(TCM)和height Modulated IoU(HMIoU)来建模和利用confidence state和height state。有了delicate的建模，weak cues能够有效地和高效地缓解strong cues造成的模糊匹配。
- 即插即用和training-free的设计在多个场景下泛化性很好。
Heuristic Matcher：
- 基于空间的启发式匹配器：空间信息是最广泛使用的strong cue。当帧之间的time intervals比较短的时候，目标的移动也是较小，可以被视为线性。这使得空间信息在短期的关联中是一个精确的metric。先前的工作SORT用卡尔曼滤波来预测tracklets的空间位置，然后基于IoU metric进行关联。后续的工作，例如CenterTrack， ByteTrack, MotionTrack和OC-SORT，都是启发式的匹配，只用了空间信息用于关联。然而即使是最先进的方法，OC-SORT，仍然会受到严重遮挡和聚集的影响。
- 基于外观的启发式匹配器：不同于空间信息，外观信息在整个视频中具有相对稳定的一致性，有利于长期关联。跟着SORT,DeepSORT, GHOST利用了一个独立的ReID模型来提取外观特征用于关联。然后跟着JDE, FairMOT, CSTrack, QDTrack, FineTrack和UTM将detection和ReID集成起来联合训练。然而，在聚集的目标中，空间和外观cues会经历严重的判别退化，即使设计了精巧的网络和关联策略。
Learnable Matcher:
- 基于图的可学习的匹配器：基于图的可学习的匹配器将关联任务表述为一个edge classification任务。tracklet nodes和有着相同ID的detection node的edge label是1。MOTSolv和GMTracker都是基于图神经网络的，使得数据关联step differentiable。最近，SUSHI利用图模型，以离线的方式，层次化地将short tracklets连接成longer tracklets。然而，基于图的匹配器的主要局限是训练和推理的pipeline通常比较复杂，限制了在线跟踪的实际应用。
- 基于Transformer的可学习的匹配器：自从Transformer在视觉任务上变得流行，很多工作都利用它的强大的注意力机制，来建模关联任务，TrackFormer和MOTR利用track queries和标准的detection queries联合执行trajectory propagation和initialization。最近，MOTRv2在MOTR的基础上引入了一个单独的检测器，尝试去解决detection和association之间的冲突。然而，基于Transformer的matchers会有大量的自注意力和交叉注意力的操作，限制了它们的实时性。
Hybrid-SORT和Hybrid-SORT-ReID跟踪SORT的范式，利用卡尔曼滤波器用于tracklets的运动估计，用或者不用 ReID进行外观建模。关联任务通过匈牙利算法作为二分图匹配来解决。用于匈牙利算法的成本矩阵是通过测量tracklets和detections之间的representation similarity来计算的。
Weak Cues Modeling:
- Tracklet Confidence Modeling：confidence state能够帮助关联的理由是很直接的。特别地，有多个目标高度重叠的时候，常用的strong cues会失效，目标的confidence能够提供显式的前景和背景关系，这是strong cues所不具备的。基于这个观察，引入了两个用于tracklet confidence的建模方法，来关联高置信度和低置信度的detections。当目标是阻塞或者轻微地遮挡时，卡尔曼滤波器是一个理想的用于建模和估计连续状态的方法。因此，用两个额外的state加到了常用的Kalman filter中：tracklet confidence \(c\) 和它的速度component \(\dot{c}\)。SORT中标准的卡尔曼滤波state的公式如下：
\[x=[u,v,s,r,\dot{u},\dot{v},\dot{s}]\]

引入了两个新的状态变量\(c\)和\(\dot{c}\)之后，TCM中完整的卡尔曼滤波state的公式如下：

\[x=[u,v,s,c,r,\dot{u},\dot{v},\dot{s},\dot{c}]\]

对于第二个关联阶段中的低置信度的detections。利用线性预测来估计tracklet的confidence，目标的confidence在遮挡开始或结束的时候会急剧增加或降低。不幸的是，当尝试估计confidence state中的突然变化时，卡尔曼滤波器会有延迟。然而，作者观察到，在短时间内，confidence changes的趋势有明显的方向性。因此，用一个基于trajectory history的线性预测来解决这个问题。

当利用卡尔曼滤波或者线性预测，confidence cost是estimated tracklet confidence和detection confidence之间的差的绝对值。

\[C_{Conf}=|\hat{c}_{trk}-c_{det}|\]
- Height Modulated IoU: 识别物体在时间上的稳定属性是多目标跟踪（MOT）中最关键的方面之一。heigt state能够提供informative cues，用于补充strong cues的discrimination。特别地，height state在两个方面增强了关联。首先，目标的高度一定程度上反应了深度信息，对于像DanceTrack这样的数据集，detection boxes的高度主要依赖于objects和camera之间的距离，使得height state是一个有效的cues用于区分高度重叠的目标。其次，height state对于多种的姿态是鲁棒的，使得它是一个精确地estimated state和高质量的目标表征。特别地，定义了两个boxes，\(b^1 = (x^1_1,y^1_1,x^1_2,y^1_2)\), \(b^2 = (x^2_1,y^2_1,x^2_2,y^2_2)\)，\(x_1\)和\(y_1\) 表示top-left corner，\(x_2\)和\(y_2\) 表示bottom-right corner。两个boxes的面积是A和B。传统IoU的计算如下，是基于area metric。另外，Height IoU通过计算基于height metric的IoU得到：
\[IoU=\frac{|A\cap B|}{|A\cup B|} \\ HIoU=\frac{\min(y_2^1,y_2^2)-\max(y_1^1,y_1^2)}{\max(y_2^1,y_2^2)-\min(y_1^1,y_1^2)}\]

为了更好地利用Height state，引入了Height modulated IoU，通过结合Height IoU和传统的IoU。考虑到HIoU表示的height state是一个weak cues。IoU表示的空间信息是一个strong cues，用HIoU通过element-wise multiplication来modualte IoU，实现了对于聚集目标的discrimination。

\[HMIoU=HIoU\cdot IoU\]
Hybrid-SORT:
- Robust Observation-Centric Momentum：在OC-SORT中, OCM在关联中考虑了目标中心的速度方向，OCM中用的cost metric是tracklet velocity direction和tracklet-to-detection velocity direction的差的绝对值。表示为 \(\delta \theta = |\theta_t - \theta_d|\)。tracklet的速度方向是在时间间隔 \(\delta t\) 内的tracklet中的两个box center得到的。tracklet-to-detection的速度方向是从tracklet的historical box和新的detection box的中心得到的。给定两个points \((u_1, v_1)\) 和 \((u_2,v_2)\)。速度方向的计算如下。然而，原始OCM的建模易受固定时间间隔和稀疏点造成的噪声的影响。
通过引入更加速度方向的、更加鲁棒的模型，来改善OCM，称之为Robust Observation-Centric Momentum(ROCM)。这个修改包括两个方面。首先，将固定的3帧的时间间隔扩展为从1到3帧的多个间隔的堆叠；其次，用目标的四个corners而不是中心点，来计算速度方向。有了更多的时间间隔和points。计算ROCM的公式如下：

\[C_{Vel}=\sum_{\Delta t=1}^{3}\frac{(C_{\Delta t}^{lt}+C_{\Delta t}^{rt}+C_{\Delta t}^{lb}+C_{\Delta t}^{rb})}{4}\]

图展示了有着复杂运动的目标，corners的速度方向有很高的相似度，中心的方向几乎是相反的：
- 外观建模：用独立的ReID模型引入外观信息。跟着BoT-SORT，这个pipeline首先检测目标，然后将resulting cropped patches给到ReID模型。用Exponential Moving Average(EMA)来建模tracklet外观信息，用余弦距离作为metric来计算tracklet和detection外观特征之间的cost \(C_{appr}\)。
- 算法框架：关联阶段主要包含3个阶段：首次关联high-confidence目标；其次关联low-confidence目标，最后的关联阶段，利用last detection恢复丢失的tracklets。将所有的strong cues和weak cues考虑在内，最后的cost matrix计算如下：
\[C=C_{HMIoU}+\lambda_1C_{Vel}+\lambda_2C_{Conf}+\lambda_3C_{Appr}\]
结论：在本文中，展示了通过利用之前忽略的weak cues，来缓解严重遮挡和聚集造成的挑战。这些weak cues能够补偿strong cues的局限。然后，通过同时利用strong cues和weak cues提出了Hybrid-SORT方法。，有效地提高了性能。

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking[1]

Time

Key Words

总结

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking^[1]