TOPIC
TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes[1]
作者是来自北大等机构的Xiaoyan Cao, Yiyao Zheng等人。论文引用[1]:
Time
- 2025.Jan
Key Words
- appearance features and motion features in parallel
- attention-base appearance reconstruction
总结
视频数据和算法推动了MOT的进步,当现有的MOT的数据集主要关注遮挡和外观相似,复杂的运动模式被广泛地忽略了,为了解决这个问题,引入了一个新的dataset称之为BEE24,来突出复杂的运动。id关联算法是MOT研究的长期的焦点。现有的trackers关联范式分为两类:single-feature(基于appearance or motion feature) 和serial paradigm(one feature serves as secondary while other is primary)。然而,这些范式不能完全利用不同的特征。本文中,作者提出了一个并行的范式,提出了Two Round Parallel matchImg mechanism来执行。TOPIC 利用了motion和appearance features,能够自适应地基于motion level选择更有利的一个作为assignment metric。另外,作者提出了attention-based appearance reconstruction module,来重建appearance feature embeddings,增强appearance features的表征。
作者构建了一个蜜蜂的数据集,其特点有:帧中不同目标有多样的运动;单个目标的跨帧运动的显著可变性。现有的数据集中运动比较简单和相似。
从算法的角度,自从deepsort 2016年出来之后,大多数的算法follow serial 关联范式,这个范式利用了一个feature来过滤一些关联的candidates,例如appearance feature in TraDeS和motion feature in FairMOT,然后用另一个feature作为主要的association metric,来避免两个特征引起的冲突问题,这个范式像intersection,没有完全利用特征的优势,可能对跟踪性能有影响。由于filtering,可能造成missing tracking, 例如false negatives。最近的工作例如ByteTrack和OC-SORT仅用了motion feature,一个典型的single-feature association 范式,超过了two-feature serial association范式例如FairMOT,然而,这样的对比可能不公平。作者的关注是有效地结合features来最大化strengths。总结一下:低速场景像MOT17和DanceTrack,遮挡和外观高度相似的对appearance feature有挑战,因此motion features作为assignment metric更有效,因为更简单的运动。在高速场景中像BEE24,复杂的非线性motions对基于线性运动假设的运动建模提出了挑战。然而,生物体在高速的时候通过保持距离来避免碰撞。这使得appearance更加的visible,提高了区分度,因此appearance feature在这里表现出色。 基于之前的讨论,得出以下的结论:a. 每个特征在特定的场景中有优势;b. motion speed和motion and appearance features的有效性强相关。受此启发,提出了一个parallel association paradigm来联合使用这两个features。TOPIC同时用motion和appearance features作为assignment metrics,像是取matching results的并集。另外,TOPIC自适应地基于motion level而不是filtering conflicting ones来选择preferable matches。除了association,detection和representation也影响tracking。作者提出的TOPICTrack采用了YOLOX 检测器,motion model 来自OC-SORT,appearance model 来自FastReID。另外,提出了一个Attention-based Appearance Reconstruction Module(AARM),来增强appearance representations。特别地,AARM能够提高不同object representations之间的distinction,增强跨帧的相同目标的representation的相似度。 在本文中,通过两个关键方面来应对复杂运动和多样化场景所带来的挑战,为MOT领域做出贡献: data construction和算法优化。贡献如下:
- 提供了一个数据集称之为BEE24,强调了复杂运动模式,作为一个挑战性、推进通用MOT算法研究的一个标杆。
- 提出了一个新的parallel 的association的范式,设计了TOPIC来执行。TOPIC利用motion和appearance features作为association metrics in parallel,根据motion level来解决conflicting matches,自适应地选择其中一个。另外,提出了AARM来增强trackers的能力来区分objects。
MOT数据集的特点: 当前MOT数据集设计多样的目标类别和场景,包括行人的,车辆的,群体舞蹈的。观察了这些数据集之后,遮挡和外观相似是主要的特征。遮挡,是一个常见的特点,在表征object appearance features的时候引入了相当大的挑战,在极端情况下可能导致外观功能失效。另一方面,高度相似的外观可能降低不同目标殴之间的视觉区分,对于基于外观的Trackers提出了挑战。另外,通过定量分析,得出结论:现有的数据集缺乏对复杂运动模式的关注,objects都是简单的运动。特别地,不同目标的运动模式是相似的,个体目标的motion intensity is low,展示出了连续帧的很小的变化。然而,更为复杂的运动模式在生活和自然界中是常见的,例如蜂群在蜂巢周围活动的现象。为了解决MOT数据的局限,探索trackers处理更复杂的场景的适应性,作者提供了一个数据集关注蜂群的活动,称之为BEE24。这个数据集突出了复杂运动模式的特点,也包括遮挡和高度相似的外观。
appearance feature-based association: 受益于ReID的发展,大多数的跟踪算法主要依赖于appearance features用于数据关联,不管是tracking-by-detection,还是joint detection and tracking(JDT)范式,尽管ReID模型依赖于大量的跟踪标注,在长时间的遮挡之后解决目标ReID的的任务在MOT中是重要的。TBD范式将detection和tracking视为两个独立的任务,例如DeepSORT用一个检测器来得到目标的位置和大小,然后构建一个网络来提取外观embeddings,JDT范式在最近几年很流行,旨在结合detection和appearance feature extractions,例如MOTs和JDE。它们用一个共享的backbone用于detection和appearance feature extraction,然而,这个范式的性能和TBD范式相比退化了,这被认为是由于训练重新识别(re-ID)模型非常复杂。FairMOT、CTracker和TraDeS探索了reID和detection models的兼容的方式,实现了超过TBD范式的跟踪结果。最近,一些工作尝试引入注意力机制来学习外观特征。一些工作探索了scene information来提高appearance models的鲁棒性。在数据关联阶段,之前提到的trackers产生当前detections和历史轨迹的appearance embeddings,这些embeddings然后用来计算用于匹配id的相似度。
尽管深度学习在增强appearances的表征上有很大的进展,appearance features在有遮挡和高度相似目标的场景中的可靠性降低了。为了达到这个目的,作者引入了一个attention-based appearance reconstruction module来增强appearance representation 能力。
Motion Feature-based Association: motion features是用于数据关联的有效的cue。经典的用于motion features的model techniques方法包括:粒子滤波和卡尔曼滤波。这些techniques是基于线性运动的假设,利用过去的motion states来估计现在的。由于高效的计算,大多数的trackers倾向于利用KF来提取运动特征。例如SORT, DeepSORT,在过去,motion features通常作为一个附加的cue,以DeepSORT为例,利用KF来过滤掉突然shifts的objects。最近的研究通过改进KF,得到了显著的跟踪结果,展示了motion features的重要性,包括ByteTrack,FastTrack, Decoder-MOT,BPMTrack和OC-SORT。
然而,这些算法对于运动模式的线性假设使得跟踪复杂运动场景更具有挑战。例如蜂群的活动,这个突出了现有Trackers通过结合多种features来增强它们性能的必要性。因此,作者argue,分析不同features的使用的条件,然后设计association paradigm,来利用它们的优势,为面向复杂和多样场景的MOT算法提供了一个promising way。
TWo-Round Parallel Matching Mechanism:现有的id关联的方法主要分为2种范式:包括single-feature 范式和serial 范式,single-feature范式用appearance features或者motion features作为assignment metric。serial paradigm首先人为地选择一种feature作为filter,来缩小关联的scope,然后用另外一种feature作为primary assignment metric来完成matching task,避免了两种features匹配结果的冲突。这个直觉:用的特征越多,tracking效果越好。如何利用这些特征的优点,通过数据关联来提高跟踪性能是本文的焦点。 接下来,首先分析现有不同场景中的关联范式的性能。如图所示,高速的蜜蜂造成motion feature失败。然而,在这个场景中,flying bee会保持距离,避免碰撞,导致它的appearance being more visible。因此,基于appearance feature的关联方式能够成功地匹配bee。另一方面,当蜜蜂慢慢地移动的时候,主要的挑战是遮挡和高度的外观相似,导致外观特征不可靠,因此,将外观特征用在关联会产生新的ID。实际上,在这个例子中,蜜蜂的运动模式倾向于是线性的,然后用线性的假设的运动模型用于关联能能够keep track of bee。基于以上的讨论,得出结论:
- 现有的关联范式根据不同的场景,不能完全利用不同的特征。
- 在运动速度、运动和appearance features的有效性之间有强关联。 经验观察和一些实践展示了基于线性假设的运动运动对于慢的,或者线性运动目标的预测是合适的。然而,当目标移动地快且非线性的时候,不确定性会增加,这些假设不在适用,导致增加预测错误。外观模型通过提取外观特征表征目标,要求目标的外观as visually complete as possible。特别是高密度场景,当目标移动地快的时候,很容易造成相互之间的遮挡,使得外观特征无效。相反,当目标移动地快的时候,遮挡减少了,使其容易辨认目标。 基于以上的外观和运动特征的可靠性的观察,提出了一个新的parallel assiciation paradigm,利用motion和appearance features作为assignment metrics in parallel, 为了执行这个范式,解决可能产生的match conflicts,提出了Two round Parallel matching mechanism。这个TOPIC的objective是最大化trajectory sets和detection sets之间关联的总的后验概率: \[\max_M\sum_{(i,j)\in M}p(\pi_j|\tau_i)\]
这里, \(p(\pi_i | \tau_i)\) 表示轨迹 \(\tau_i\) 和detection \(\pi_i\) 的正确匹配的概率,可以通过基于appearance和motion features进行计算。基于外观特征的后验概率 \(p(\pi_j|\tau_i, appearance)\) 通过余弦距离测量,基于运动特征的后验概率 \(p(\pi_j|\tau_i, motion)\) 通过IoU距离测量,将后验概率变成association costs: \[A_{\mathrm{cost}}(i,j)=1-p_{\mathrm{a}}(\tau_{i}|\pi_{j}),M_{\mathrm{cost}}(i,j)=1-p_{\mathrm{m}}(\tau_{i}|\pi_{j}).\]
\(A_{cost(i,j)}\) 和 \(M_{cost(i,j)}\) 表示appearance和motion features的cost matrices。基于外观和运动特征的track \(\tau_i\) 和 detection \(\pi_j\) 之间的匹配概率通过 \(p_a(\tau_i|\pi_j)\) 和 \(p_m(\tau_i|\pi_j)\),然而,优化的目标转化成最小化appearance和motion features的总的matching costs:
\[\min_{M_a}\sum_{(i,j)\in M_a}A_{cost}(i,j)\] \[\min_{M_m}\sum_{(i,j)\in M_m}M_{cost}(i,j).\]
对于算法的初始化,作者并行计算外观特征cost matrix \(A_{cost}\) 和motion feature cost matrix \(M_{cost}\) between tracklets和detections。然后,最后的matches M 初始化为一个空集。接下来,进入第一轮的matching,TOPIC用匈牙利算法得到了基于外观的和基于运动的matches \(M_a\) 和 \(M_m\),称之为pre-matching。在pre-matching的结果中,相同的matches \(\hat{M}_a\) 会被更新得到最后的matches M,然而冲突的matches \(M_c\) 进入第二轮matching。在第二轮matching中,对于有冲突的matches, TOPIC自适应地根据motion level,从更可靠的特征中选择matches,而不是过滤掉它们。
在本文中,作者用IoU测量了motion level,公式如下:
\[\text{MotionLevel}_i^t=1-\mathrm{IOU}(B_i^{t-k},B_i^t)\]
\(MotionLevel^t_i\) 表示tracklet i在第t帧的运动Level,取值在[0,1]。一个更大的值表示更高的motion level。另外,\(B^t\) 表示 tracklet i在t帧的bbox,\(B^{t-k}\) 表示距离frame t的最近的observation box,适用于非缺失检测和缺失检测。考虑到object motion的不确定性,采用了一个默认的假设,当目标初始时被跟踪,它的motion level是1。
另外,引入了motion level \(\alpha\) 的阈值,\(\alpha \in [0,1]\),如果 \({motionlevel}^t_i >= \alpha\),we trust 基于外观matching的结果,否则选择motion-based matching。注意到,TOPIC会退化到appearance-based 和motion-based matching,根据 \(\alpha=0\) 和 \(\alpha=1\)。
在解决了conflicts之后,可以得到最终的matches \(M\),unmatched tracklets \(un_T\) 和unmatched detections \(un_D\) for updating tracklets。
Attention-based Appearance Reconstruction Module: 因为appearance model 影响了跟踪的性能,这个section主要引入了一个新的appearance feature extraction方法,来增强外观表征的能力,受Fisher Discrimination criterion的启发,它最大化了inter-class distance,最小化了intra-class distance,提出了一个appearance-based appearance reconstruction module(AARM) 来增强区分object identity的能力。如图所示,AARM能够提高不同objects的representations,增强不同帧的相同目标的representations的相似度。 \(\{\{t_{i,k}\}_{k=1}^{L_{i}}\}_{i=1}^{n}\) 表示n个之前的tracklets的appearance embedding galeries,\(t_{i,k} \in R^{dim}\) 表示tracklet i的第k个embedding,\(dim\) 表示 embedding dimension,\(L_i\) 表示tracklet i 的embeddings的数量,相似地,\(\{d_j\in\mathbb{R}^{dim}\}_{j=1}^{m}\) 表示当前m detections的appearance embeddings。 首先,用余弦距离for traklet i的第k个embedding 和detection j的embedding 来计算一个attention map \(R_{(i,k),j}\in\mathbb{R}^{dim\times dim}\):
\[R_{(i,k),j}= \begin{pmatrix} \frac{t_{i,k}}{\left\|t_{i,k}\right\|_2} \end{pmatrix}^T \begin{pmatrix} \frac{d_j}{\left\|d_j\right\|_2} \end{pmatrix}.\]
接下来,利用matrix transposition和softmax函数来得到两个交叉注意力matrixes: \[R_{(i,k),j}^d=Softmax(R_{(i,k),j})\] \[R_{(i,k),j}^t=Softmax(R_{(i,k),j})^T.\]
然后,用一个residual attention mechanism来得到两个重建的appearance embeddings \(\hat{d}_j\) 和 \(\hat{t}_{(i,k),j}\):
\[\hat{d}_{j}=(R_{(i,k),j}^{d}+I)d_{j} \\ \hat{t}_{(i,k),j}=(R_{(i,k),j}^{t}+I)t_{i,k}.\] 另外,计算了tracklet i和detection j之间的reconstructed embeddings,如下: \[A_{sim_{i,j}}=max\{\hat{d}_{j}^{T}\hat{t}_{(i,k),j}|k\in[1,L_{i}]\}.\]
最后,得到了基于外观的cost matrix \(A_{cost} = {(1-A_{sim_{i,j}})}_{m \times m}\)。这个appearance reconstruction module不需要训练,可以即插即用。
作者分析了AARM能够有效运作的原理。cross-attention map中的每个元素的值表示tracklet和detection features之间的相似度,越接近1表示特征越相似,不同帧中相同的目标由于相似的部分,得到了更多的attention,相同帧中不同的目标反之亦然。因此,reconstructed appearance features增强了区分object identity的能力。
\(Fig.1^{[1]}\).
现有的关联范式和作者提出的parallel 范式的对比。a 是single-feature
关联范式,用了motion或者appearance feature作为assignment metric,b 是
serial 关联范式,人为地指定一个feature来过滤association
candidates,另一个feature作为主要的assignment
metric,这类似于对运动匹配和外观匹配取“交集”。c 是作者提出的parallel
association 范式,用motion 和appearance features作为assignment metrics
in parallel,像采取一个并集,能够解决冲突。
\(Fig.2^{[1]}\)
将相同的蜜蜂的相似度metric作为一个例子,首先利用蜜蜂的历史轨迹和当前的detections的appearance
embeddings \(t_(1,1)\) 和 \(d_1\) 来计算 attention map \(R_{(1,1),1}\),接下来,通过在attention
map上进行softmax 操作,得到 \(R^d_{(1,1),1}\),然后在transposition之后得到
\(R^t_{(1,1),1}\),得到两个cross-attention
maps,之后,外观embeddings \(t_{(1,1)}\) 和 \(d_1\) 通过residual attention
mechanism进行reconstructed,在reconstruction之后,相同蜜蜂的appearance
embeddings的相似度分数增加了,对于不同的蜜蜂,反之亦然。