SMILEtrack

SMILEtrack: A Simple and Effective Multi-Object Tracking Method[1]

作者是来自台湾的Yu-Hsiang Wang、Jun-Wei Hsieh等人。论文引用[1]:Wang, Yuhan et al. “SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking.” AAAI Conference on Artificial Intelligence (2022).

Time

  • 2024.Jan

Key Words

  • Siamese network-based Similarity Learning Module

  • Similarity Matching Cascade with a novel GATE function

  • 一句话来说,首先不是端到端的,用了单独的detector,然后,还是基于TbD框架的,detector是YOLOX,重点是在association上,用了一个Similarity Learning Module(SLM),一个Siamese的网络来做相似性度量,IoU + ReID,然后,在提appearance embedding的时候用了一个Patch self-attention,然后就是一个 Similarity Matching Cascade(SMC)的association的思路。其它的没有什么

总结

  1. 尽管MOT领域最近取得了一些进展,还是有一些难点例如遮挡和相似目标、以及复杂场景。同时,对于流行的tracking-by-detection范式的cost-performance tradeoff的系统性的研究仍然是缺乏的。本文介绍了SMILEtrack,一个新的object tracker,通过将一个高效地object detector结合Siamese network-based Similarity Learning Module(SLM),有效地解决这些挑战。SMILEtrack的主要贡献有两个方面:首先,提出了SLM,计算两个objects之间的相似度,克服了Separate Detection和embedding models之间的feature descriptors的局限。SLM受ViT的启发,引入了Patch Self-Attention block,能够为精确地相似度匹配产生可靠的features。其次,开发了一个Similarity Matching Cascade(SMC) module with a novel GATE function,用于robust object matching,进一步增强MOT的性能。SMILEtrack实现了cost和performance的平衡。
  1. MOT任务是估计每个target的轨迹,并关联它们。尽管MOT中有很多的努力,这个任务由于模糊的objects、遮挡和复杂场景,仍然是一个挑战性的任务。在TbD范式中,有主要的两个策略:1. Joint Detection and Embedding; 2. Separate Detection and Embedding(SDE), JDE方法将detector和embedding model结合为单一的network,输出detection results和对应的appearance embedding features in one inference, SDE方法需要一个detector和一个reid model。detector 通过bboxes在单帧中定位所有的objects,reid model从它的bboxes中提取embedding features,这些features用于将每个bbox和现有的轨迹进行关联。尽管它们有灵活性,由于两个separate model, SDE方法的效率落后于JDE, (Tracking-by-Attention)TbA范式用attention来做data association,通过Transformer实现tracking和detection。这个工作的动机是两方面的:一个是MOT中长期存在的问题是遮挡,尽管TbA方法在feature attention上有很好的结果,但是复杂度导致推理速度慢。另外,遮挡会造成tracked objects to pay less attention,导致MOT的失败。同时,TbD方法例如ByteTrack效率高,但是精确不是最优的。本文提出的一个新的object tracker,Similarity Learning for Multiple Object Tracking(SMILEtrack),结合了object detector和similarity learning module(SLM),来解决MOT中的多个挑战,特别是遮挡。图中展示了SMILEtrack的架构,为实现SOTA做了两个贡献:1. 高效和轻量的self-attention mechanism,能够学习两个bboxes之间的相似度;尽管SDE模型能够实现object tracking的高的进度,大多数的feature descriptors不能区分相似外观的objects。为了解决这个问题,**提出了一个Siamese network-based Similarity Learning Module(SLM),能够计算两个objects之间的appearance similarity。受ViT的启发,在SLM中引入了一个Patch Self-Attention Block来得到reliable features用于similarity matching. 2. 一个带有novel GATE function的robust tracker能够关联candidate bbox,提高MOT的性能。为了恒好滴处理遮挡,构造了一个Similarity Matching Cascade(SMC) module,来匹配多个objects。总结一下,本工作的贡献如下:

    • 提出了SMILETrack,一个separate detection和tracking model,来跟踪frames中的多个目标
    • 引入了Simaese network-based Similarity Learning Module(SLM),来学习objects之间的appearance similarity
    • 一个Patch Self-Attention(PSA) block,用self-attention 机制来为similarity matching提供reliable features
    • 设计了一个Similarity Matching Cascade(SMC) module来匹配objects,提高了遮挡的性能
  2. TbD 方法是MOT中最流行的方法,主要可以分为两个部分:object detection和object association。

    • Object Detection:主流的object detection模型分为two-stage和one-stage,YOLO的方法广泛用于MOT,然而,anchor-based detectors引入了很多超参数,造成训练期间的时间和memory的消耗。为了缓解这些问题,anchor-free的detectors例如CenterNet, YOLOX出现了,尽管有提升,这些tracking方法仍然难以准确地探测不同尺寸大小的Objects。PRB-Net是一个高效的object detector,解决了anchor-based和anchor-free detectors的限制。
    • Object Association:SORT是一个简单有效地tracking算法,用Kalman filtering和Hungarian 算法用于object association,该方法在应对遮挡和快速移动物体等挑战时存在困难。DeepSORT通过引入基于CNN的appearance features缓解了遮挡问题,然而,牺牲了速度。为了解决这个效率问题,FairMOT用一个基于CenterNet的anchor-free方法,显著地提高了MOT的性能。为了提高tracking efficiency,很多MOT的方法忽视了object appearance features,而是利用高性能检测器和motion cues。尽管实现了很好的结果,作者假设它们的性能很大程度上依赖于dataset的运动模式的简单性。忽视的appearance features可能在密集的场景中牺牲tracking accuracy和robustness。
  3. Tracking-by-Attention:Trackformer通过将MOT变成一个frame-to-frame的set prediction问题,frames之间的data association通过attentino计算,跨帧的轨迹预测集通过Transformer的编码器-解码器架构生成。类似地,TransTrack用基于attention的query-key 机制,来执行object detection和association in a single shot based on Deformable DETR。TransCenter是另外一个基于Transformer的架构,用image-related dense detection queries和sparse tracking queries用于MOT,然而,所有的基于Transformer的方法都需要大量的计算,不适合实时应用。

  4. 作者的SMILEtrack是一个新的MOT架构的detector和一个Similarity Learning Module(SLM),SMILEtrack包含两个modules:object detection和object association,前者主要是定位large and small pedestrians,实现了精度和效率的平衡,超过了YOLOX,主要的贡献在于后者:包含了similarity calculation,一个similarity learning module(SLM),学习appropriate features和用一个Siamese network计算外观相似度;2. object association, Similarity Matching Cascade(SMC) module 用匈牙利算法解决MOT中的线性分配问题。

    • Similarity Learning Module(SLM): Object Appearance information对于实现robust tracking很重要,尽管SORT是一个简单的association framework,能够实现高速的推理,它的相似度分数不考虑目标的外观信息,不能处理长期的遮挡或者快速运动的objects。DeepSORT通过用一个预训练的CNN计算bbox appearance descriptors,来解决这个问题。然而,这个descriptor只考虑了相同objects的similarity,没有考虑不同frames的不同objects的dissimilarity,这里,作者提出了Similarity Learning Module,利用Siamese Network架构,学习discriminative appeanrace features,实现逐帧地准确地跟踪。下图展示了SLM的架构,它将target和query objects作为输入,都分为several patches,通过Patch Self-Attention Block。注意到,所有patches的height-width ratios不是固定的。因为MOT17/20数据集中的目标都假定为型二年,作者发现,configuration E实现了最好的性能,这个可以通过观察,layout E 利用了pedestrian的先验和translation invariance来解释。

    • Patch Self-Attention(PSA) Block: 为了产生一个可靠的appearance feature,一个superior feature representation是重要的,受ViT的启发,每个SLM的输入划分为separate patches,然后,所有的patches和它们的positions嵌入到一起,给到backbone来提取rich feature vectors,然后,三个全连接网络将所有的patches的visual features转换成three sets of compact features, i.e query, key and value. 基于query 和key sets的features,不同的combinations之间的various attentions可以计算,用于对value set of each patch的features进行加权,得到feature vector来更精确地表征object。

    • Q-K-V Attention:因为输入的objects是不同的sizes,将它们resize到一个固定的 \(W \times H\)。因为A中的patches之间的有几何关系,它们的表征需要被修正,来保持position-dependent properties。对于patch \(P_i\), 它的position embedding vector \(E_i\) 是由标准的Transformer得到,an object \(A\) 的嵌入表示为: \(A = (A_1,..., A_i,..., A_{Np})\)\(A_i = P_i + E_i\)\(A \in R^{D_p \times N_p\),对于每个\(A_i\),采用CSP-Net作为backbone,将其转换为 feature matrix \(F_i\)\(F_i\) 包含\(d_f\) 个row vectors 和 C个 column vectors。C 是channel的数量。 \(d_f\) 是feature pyramid的最后一层的大小。

    • Similarity Matching Cascade(SMC) for Tracking:在相似度计算之后就是object association。一个设计好的association 策略对跟踪结果有很重要的影响。ByteTrack是一个简单有效的关联方法。仅依赖于IOU distance用于data association会导致频繁的ID切换。为了解决这个问题,设计了一个SMC association 方法,结合了ByteTrack的优点,实现了速度和精度的平衡。

    • SMC GATE fuction:为了计算相似度分数,多达数的MOT方法用一个weighted sum来结合IOU和appearance information 来提高数据关联的精度。然而,当IOU score比appearance similarity score更高的时候,这个方法会有问题。两个不同的pedestrian,可能overlap,但是不相同,本文引入了一个GATE function in SMC module,当target的appearance similarity score低的时候,即使IOU分数很高,,GATE function会拒绝这个target。由于遮挡或者光线变化。\(O^H_{remain}\) 中有高分的objects可能在当前帧中没有匹配上,但是在后续的帧中可能匹配上。如果一个target in \(O^H_{remain}\) 通过了GATE function check,SMC module会产生一个新的tracklet,将其添加到 T中用于further matching。GATE function用一个阈值 \(\tau\)\(O^H_{remain}\) 中选择objects,低于 \(\tau\) 的objects和 \(O^L_{remain}\) 中的objects会被认为是背景,被过滤掉。GATE 是一个新的addition,bytetrack中没有。

architecture of SMILEtracker \(Fig.1^{[1]}\) SMILEtracker是一个Siamese network架构,学习两个objects之间的appearance similarity features,计算similarity scores,SMILEtracker包含object detection和object association。

Appearance similarity between low-score detection at the current frame and tracks at the previous frame \(Fig.2^{[1]}\)

Patch Self-Attention \(Fig.3^{[1]}\)

Similarity Matching Cascade pipeline \(Fig.4^{[1]}\)

Appearance similarity between low-score detection at the current frame and tracks at the previous frame \(Fig.5^{[1]}\) Five tracklets compute a similarity score with the low-score detection using SLM. The most similar tracklet is selected, as indicated by the orange arrow in the figure.