hybrid-SORT
Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking[1]
作者是来自大连理工和深圳TVT公司的Mingzhan Yang等人,论文引用[1]:Yang, Ming-Hsuan et al. “Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.” AAAI Conference on Artificial Intelligence (2023).
Time
- 2024.Jan
Key Words
总结
- 多目标旨在检测和逐帧关联所有理想的目标。大多数的方法通过显式或隐式的利用strong cues,例如空间和外观信息来完成这个任务,展示出了很强的instance-level的判别能力。然而你,当目标遮挡或者聚集的时候, 空间和外观信息可能会变得模糊,因为目标的高度重叠。在本文中,展示了可以通过利用weak cues来补偿strong cues来完成这个任务。沿着速度的方向,引入置信度和height state作为潜在的weak cues。有着卓越的性能,作者的方法仍然保持Simple, Online, Real-time的特性。另外,作者的方法展示了对于多个trackers和场景的泛化性,能够即插即用,training-free。将这个方法应用到5个不同的有代表性的trackers上的时候,有很大的提升。
最近,tracking-by-detection是MOT中最流行的范式,将这个问题划分为两个子任务:检测和关联。首先检测每帧中的目标;然后在不同的帧中对它们进行关联。关联主要是通过显式地或隐式地利用strong cues来解决,包括空间和外观信息。这个设计是合理的,因为这些strong cues能够提供instance-level discrimination。然而,常用的strong cues在一些有挑战性的场景下例如遮挡或者聚集,会发生退化。特别地,当两个物体高度重叠的时候,detections和估计的tracklet locations之间的IoU会变得模糊,目标的外观特征会被前景的目标所主导。
在图1中的weak cues,展示了weak cues例如 confidence state, heigh state和velocity direction,这些能够缓解当strong cues不可靠的时候的模糊的关联。然而,据作者所知,weak cues被大多数的方法忽略了,它们只在确定的目标中处理可靠的discrimination。如图1所示,confidence state是唯一可靠的,用于区分ID2和其它的ID
在本文中,作者选择confidence state和height state所谓潜在的weak cues的类型,再加上OC-SORT中用的velocity direction。这些confidence state能够显式地指示遮挡/被遮挡的关系,提供一个重要的cues。height state是目标的一个稳定的特性,对于目标不同的姿态比较鲁棒,包含了一定程度的深度信息。
为了保持Simple, Online, Real-time的特性,提出了简单有效的策略来利用weak cues。称之为Tracklet Confidence Modeling(TCM) 和 Height Modulated IoU(HMIoU)。对于TCM,用卡尔曼滤波器和线性预测来估计tracklets的confidence state,之后作为一个metric来关联tracklets。对于HMIoU,height state也是通过卡尔曼滤波器进行建模。用于关联的height cost matrix首先定义为沿着hegith axis的IoU for estimated tracklet box和detection box,然后和标准的、基于area metric的IoU matrix进行融合。
为了评估设计的泛化能力,将这个设计用到5个不同的代表性的tracker上,包括SORT,DeepSORT,MOTDT和OC-SORT。进一步,为了增强SORT方法的性能,将OC-SORT作为baseline,首先修改了OC-SORT中的velocity direction modeling,(OCM),通过扩展box center到四个box corners,将固定的temporal interval扩展到multiple intervals。其次,跟着ByteTrack,包含了一个额外的关联阶段用于低置信度的detection。连同TCM和HMIoU, Hybrid-SORT实现了很好的性能。主要的贡献如下:
- 通过引入weak cues例如confidence state, height state,velocity direction,作为strong cues的补助。
- 引入了Tracklet Confidence Modeling(TCM)和height Modulated IoU(HMIoU)来建模和利用confidence state和height state。有了delicate的建模,weak cues能够有效地和高效地缓解strong cues造成的模糊匹配。
- 即插即用和training-free的设计在多个场景下泛化性很好。
Heuristic Matcher:
- 基于空间的启发式匹配器:空间信息是最广泛使用的strong cue。当帧之间的time intervals比较短的时候,目标的移动也是较小,可以被视为线性。这使得空间信息在短期的关联中是一个精确的metric。先前的工作SORT用卡尔曼滤波来预测tracklets的空间位置,然后基于IoU metric进行关联。后续的工作,例如CenterTrack, ByteTrack, MotionTrack和OC-SORT,都是启发式的匹配,只用了空间信息用于关联。然而即使是最先进的方法,OC-SORT,仍然会受到严重遮挡和聚集的影响。
- 基于外观的启发式匹配器:不同于空间信息,外观信息在整个视频中具有相对稳定的一致性,有利于长期关联。跟着SORT,DeepSORT, GHOST利用了一个独立的ReID模型来提取外观特征用于关联。然后跟着JDE, FairMOT, CSTrack, QDTrack, FineTrack和UTM将detection和ReID集成起来联合训练。然而,在聚集的目标中,空间和外观cues会经历严重的判别退化,即使设计了精巧的网络和关联策略。
Learnable Matcher:
- 基于图的可学习的匹配器:基于图的可学习的匹配器将关联任务表述为一个edge classification任务。tracklet nodes和有着相同ID的detection node的edge label是1。MOTSolv和GMTracker都是基于图神经网络的,使得数据关联step differentiable。最近,SUSHI利用图模型,以离线的方式,层次化地将short tracklets连接成longer tracklets。然而,基于图的匹配器的主要局限是训练和推理的pipeline通常比较复杂,限制了在线跟踪的实际应用。
- 基于Transformer的可学习的匹配器:自从Transformer在视觉任务上变得流行,很多工作都利用它的强大的注意力机制,来建模关联任务,TrackFormer和MOTR利用track queries和标准的detection queries联合执行trajectory propagation和initialization。最近,MOTRv2在MOTR的基础上引入了一个单独的检测器,尝试去解决detection和association之间的冲突。然而,基于Transformer的matchers会有大量的自注意力和交叉注意力的操作,限制了它们的实时性。
Hybrid-SORT和Hybrid-SORT-ReID跟踪SORT的范式,利用卡尔曼滤波器用于tracklets的运动估计,用或者不用 ReID进行外观建模。关联任务通过匈牙利算法作为二分图匹配来解决。用于匈牙利算法的成本矩阵是通过测量tracklets和detections之间的representation similarity来计算的。
Weak Cues Modeling:
- Tracklet Confidence Modeling:confidence state能够帮助关联的理由是很直接的。特别地,有多个目标高度重叠的时候,常用的strong cues会失效,目标的confidence能够提供显式的前景和背景关系,这是strong cues所不具备的。基于这个观察,引入了两个用于tracklet confidence的建模方法,来关联高置信度和低置信度的detections。当目标是阻塞或者轻微地遮挡时,卡尔曼滤波器是一个理想的用于建模和估计连续状态的方法。因此,用两个额外的state加到了常用的Kalman filter中:tracklet confidence \(c\) 和它的速度component \(\dot{c}\)。SORT中标准的卡尔曼滤波state的公式如下:
\[x=[u,v,s,r,\dot{u},\dot{v},\dot{s}]\]
引入了两个新的状态变量\(c\)和\(\dot{c}\)之后,TCM中完整的卡尔曼滤波state的公式如下:
\[x=[u,v,s,c,r,\dot{u},\dot{v},\dot{s},\dot{c}]\]
对于第二个关联阶段中的低置信度的detections。利用线性预测来估计tracklet的confidence,目标的confidence在遮挡开始或结束的时候会急剧增加或降低。不幸的是,当尝试估计confidence state中的突然变化时,卡尔曼滤波器会有延迟。然而,作者观察到,在短时间内,confidence changes的趋势有明显的方向性。因此,用一个基于trajectory history的线性预测来解决这个问题。
当利用卡尔曼滤波或者线性预测,confidence cost是estimated tracklet confidence和detection confidence之间的差的绝对值。
\[C_{Conf}=|\hat{c}_{trk}-c_{det}|\]
- Height Modulated IoU: 识别物体在时间上的稳定属性是多目标跟踪(MOT)中最关键的方面之一。heigt state能够提供informative cues,用于补充strong cues的discrimination。特别地,height state在两个方面增强了关联。首先,目标的高度一定程度上反应了深度信息,对于像DanceTrack这样的数据集,detection boxes的高度主要依赖于objects和camera之间的距离,使得height state是一个有效的cues用于区分高度重叠的目标。其次,height state对于多种的姿态是鲁棒的,使得它是一个精确地estimated state和高质量的目标表征。特别地,定义了两个boxes,\(b^1 = (x^1_1,y^1_1,x^1_2,y^1_2)\), \(b^2 = (x^2_1,y^2_1,x^2_2,y^2_2)\),\(x_1\)和\(y_1\) 表示top-left corner,\(x_2\)和\(y_2\) 表示bottom-right corner。两个boxes的面积是A和B。传统IoU的计算如下,是基于area metric。另外,Height IoU通过计算基于height metric的IoU得到:
\[IoU=\frac{|A\cap B|}{|A\cup B|} \\ HIoU=\frac{\min(y_2^1,y_2^2)-\max(y_1^1,y_1^2)}{\max(y_2^1,y_2^2)-\min(y_1^1,y_1^2)}\]
为了更好地利用Height state,引入了Height modulated IoU,通过结合Height IoU和传统的IoU。考虑到HIoU表示的height state是一个weak cues。IoU表示的空间信息是一个strong cues,用HIoU通过element-wise multiplication来modualte IoU,实现了对于聚集目标的discrimination。
\[HMIoU=HIoU\cdot IoU\]
Hybrid-SORT:
- Robust Observation-Centric Momentum: 在OC-SORT中, OCM在关联中考虑了目标中心的速度方向,OCM中用的cost metric是tracklet velocity direction和tracklet-to-detection velocity direction的差的绝对值。表示为 \(\delta \theta = |\theta_t - \theta_d|\)。tracklet的速度方向是在时间间隔 \(\delta t\) 内的tracklet中的两个box center得到的。tracklet-to-detection的速度方向是从tracklet的historical box和新的detection box的中心得到的。给定两个points \((u_1, v_1)\) 和 \((u_2,v_2)\)。速度方向的计算如下。然而,原始OCM的建模易受固定时间间隔和稀疏点造成的噪声的影响。
通过引入更加速度方向的、更加鲁棒的模型,来改善OCM,称之为Robust Observation-Centric Momentum(ROCM)。这个修改包括两个方面。首先,将固定的3帧的时间间隔扩展为从1到3帧的多个间隔的堆叠;其次,用目标的四个corners而不是中心点,来计算速度方向。有了更多的时间间隔和points。计算ROCM的公式如下:
\[C_{Vel}=\sum_{\Delta t=1}^{3}\frac{(C_{\Delta t}^{lt}+C_{\Delta t}^{rt}+C_{\Delta t}^{lb}+C_{\Delta t}^{rb})}{4}\]
图展示了有着复杂运动的目标,corners的速度方向有很高的相似度,中心的方向几乎是相反的:
外观建模:用独立的ReID模型引入外观信息。跟着BoT-SORT,这个pipeline首先检测目标,然后将resulting cropped patches给到ReID模型。用Exponential Moving Average(EMA)来建模tracklet外观信息,用余弦距离作为metric来计算tracklet和detection外观特征之间的cost \(C_{appr}\)。
算法框架:关联阶段主要包含3个阶段:首次关联high-confidence目标;其次关联low-confidence目标,最后的关联阶段,利用last detection恢复丢失的tracklets。将所有的strong cues和weak cues考虑在内,最后的cost matrix计算如下:
\[C=C_{HMIoU}+\lambda_1C_{Vel}+\lambda_2C_{Conf}+\lambda_3C_{Appr}\]