FeatureSORT: Essential Features for Effective Tracking[1]

作者是来自韩国的Hamidreza Hashempoor等人。论文引用[1]:Hashempoor, Hamidreza et al. “FeatureSORT: Essential Features for Effective Tracking.” ArXiv abs/2407.04249 (2024): n. pag.

Time

  • 2024.July

Key Words

  • multiple feature modules
  • measurement-to-track associated distance function
  • Global linking for missing association
  • Gaussian Smoothing Process for missing detection
  • 一句话来说:在DeepSORT的基础上,结合了多种信息,Style、Direction、BoT(ReID)、motion state等,在后处理上,增加了Global Linking和GSP,增强了tracker的性能。

总结

  1. 在这个工作中,我们提出了一种新型跟踪器,专为在线多目标跟踪设计,在保持高效性的同时注重简洁性。作者提供了多个feature modules,每个代表以各种appearance information。通过集成这些不同的appearance features,包括衣服颜色,style,target direction,还有一个ReID网络用于embedding extraction,作者的tracker显著地提高了跟踪精度。另外,作者引入了更强的detector,提供了先进的后处理方法,能够进一步提高tracker的性能。在实时operation的时候,建立measurement-to-track的关联距离函数,包括IOU, Direction, color, style, 和edge(ReID features) similarity information,每个metric的计算是分开的。有了这个feature-related distance function,在更长的遮挡的时候,是有可能跟踪objects的,能够保持id切换相对比较低。大量的实验评估表明在跟踪精度和可靠性上有了显著的提升。具体表现为身份切换次数减少、遮挡处理能力增强。这些进展不仅推动了目标跟踪领域的技术前沿,更为未来需要高精度与高可靠性的研究及实际应用(如自动驾驶、视频监控等)提供了新的探索方向与技术路径。
阅读全文 »

SMILEtrack: A Simple and Effective Multi-Object Tracking Method[1]

作者是来自台湾的Yu-Hsiang Wang、Jun-Wei Hsieh等人。论文引用[1]:Wang, Yuhan et al. “SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking.” AAAI Conference on Artificial Intelligence (2022).

Time

  • 2024.Jan

Key Words

  • Siamese network-based Similarity Learning Module

  • Similarity Matching Cascade with a novel GATE function

  • 一句话来说,首先不是端到端的,用了单独的detector,然后,还是基于TbD框架的,detector是YOLOX,重点是在association上,用了一个Similarity Learning Module(SLM),一个Siamese的网络来做相似性度量,IoU + ReID,然后,在提appearance embedding的时候用了一个Patch self-attention,然后就是一个 Similarity Matching Cascade(SMC)的association的思路。其它的没有什么

总结

  1. 尽管MOT领域最近取得了一些进展,还是有一些难点例如遮挡和相似目标、以及复杂场景。同时,对于流行的tracking-by-detection范式的cost-performance tradeoff的系统性的研究仍然是缺乏的。本文介绍了SMILEtrack,一个新的object tracker,通过将一个高效地object detector结合Siamese network-based Similarity Learning Module(SLM),有效地解决这些挑战。SMILEtrack的主要贡献有两个方面:首先,提出了SLM,计算两个objects之间的相似度,克服了Separate Detection和embedding models之间的feature descriptors的局限。SLM受ViT的启发,引入了Patch Self-Attention block,能够为精确地相似度匹配产生可靠的features。其次,开发了一个Similarity Matching Cascade(SMC) module with a novel GATE function,用于robust object matching,进一步增强MOT的性能。SMILEtrack实现了cost和performance的平衡。
阅读全文 »

MotionTrack: Learning Motion Predictor for Multiple Object Tracking[1]

作者是来自国防科大、京东、美团等机构的Changcheng Xiao、Qiong Cao等人。论文引用[1]:Qin, Zheng et al. “MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object Tracking.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 17939-17948.

Time

  • 2024.Mar

Key Words

  • long trajectory
  • motion predictor
  • 一句话来说:之前的MOT方法使用detection、appearance features来做,但是motion information 被忽略了,之气的motion model一般都是用kalman filter,作者利用Transformer的long-term dependencies的能力,利用历史的轨迹信息,来预测下一帧的位置。这里就用了token-level和channel-level两个granularity的信息,分别用多头自注意力和DyMLP来处理,然后进行融合,object motion prediction的目标是基于object的历史轨迹信息,预测其bbox的相对空间位移

总结

  1. 通过detection的进步和reid方法,MOT领域有了很大的进步。尽管有了这些成就,精确地跟踪有着一致的外观和不同的运动的场景仍然是一个挑战,这个挑战来自于两个因素:ReID特征的不够充分的区分度和MOT中线性运动的模型的利用在这个背景下,引入了一个新的基于Motion的tracker, MotionTrack。以一个可学习的motion predictor为中心,仅依赖于object trajectory information。这个predictor 全面地集成了motion features中的两个level的粒度,来增强时序动态建模能力,为每个objects提升准确的motion prediction。具体地说,提出的方式采用了自注意力机制,来得到token-level的information 和一个动态MLP layer来建模channel-level features。MotionTrack是一个简单、在线的tracking方法。
阅读全文 »

PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers[1]

作者是来自HITshenzhen、PCL和UQ的Weikang Meng, Yadan Luo等人。论文引用[1]:Meng, Weikang et al. “PolaFormer: Polarity-aware Linear Attention for Vision Transformers.” ArXiv abs/2501.15061 (2025): n. pag.

Time

  • 2025.Mar

### Key Words

总结

  1. 线性注意力是一个有前景的替代softmax-based 的attention 方法,利用kernelized feature maps将复杂度从quadratic降低到linear in sequence length。然后,non-negative constraint on feature maps和在approximation中用到的 relaxed exponential function 导致重要的信息丢失(相比于原始的query-key dot products),导致 less discriminative attention maps with higher entropy。为了解决negative values in query-key pairs的 丢失的interactions,作者提出了polar-aware linear attention mechnism,显式地建模 same-signed 和opposite-signed query-key interactions,确保relational information的全面的收敛。另外,为了恢复attention maps的spiky properties,作者提供了一个理论分析,证明了existence of a class of element-wise functions(with positive first and second derivatives) that can reduce entropy in the attention distribution。为了简单起见和识别每个维度的distinct contributions,作者采用了可学习的power function for rescaling,允许strong和weak attention signals 能够有效地分开。
阅读全文 »

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking[1]

作者是来自华科和微软的Yifu Zhang等人。论文引用[1]:Zhang, Yifu et al. “FairMOT: On the Fairness of Detection and Re-identification in Multiple Object Tracking.” International Journal of Computer Vision 129 (2020): 3069 - 3087.

Time

  • 2021.Oct

Key Words

  • object detection and re-id in a single network
  • 一句话来说:就是在single network中,结合detection和re-id的多任务学习,同时避免了之前的基于anchor的reID feature的带来的ambiguity和feature conflict的问题。FairMOT的detection branch是基于CenterNet、anchor-free的方式,re-ID 是feature dimension为64,实现了更好的效果

总结

  1. MOT在CV中是一个重要的任务,将MOT表述为单个网络中的object detection和 re-id的多任务学习 is appealing,因为它运训两个任务的联合优化,计算效率高。然而,作者发现,两个任务倾向于彼此竞争,需要谨慎处理。特别地,之前的任务通常将Re-id作为一个附属任务,它的精度被之前的detection task严重影响。因此,网络会偏向detection,对 re-id not fair。为了解决这个问题,作者提出了一个简单有效的方法,称之为 FairMOT,基于CenterNet,注意到,这不是简单的centerNet和Re-id的结合。相反,作者展示了很多细节的设计,这些对实现一个好的结果很重要。这个方法在检测和跟踪上实现了很好的精度。
阅读全文 »

Deep Learning for Person Re-identification(ReID): A Survey and Outlook[1]

作者是来自武大等机构的Mang Ye等人。论文引用[1]:Ye, Mang et al. “Deep Learning for Person Re-Identification: A Survey and Outlook.” IEEE Transactions on Pattern Analysis and Machine Intelligence 44 (2020): 2872-2893.

Time

  • 2022.June

总结

  1. 人物的reid被广泛地作为一个特定人物在不同摄像头之间的的检索问题,给定一个感兴趣的人物的query,ReID的目标是决定这个人物是否出现在一个不同的摄像头、不同的时间和地点中,或者是同一个摄像头在不同的时间。这个query person 可以由一张图像、一个video sequence进行表示,甚至是text description,由于公共安全的需要和监控摄像头数量的增加,person ReID在智能监控领域急需的。
阅读全文 »

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes[1]

作者是来自北大等机构的Xiaoyan Cao, Yiyao Zheng等人。论文引用[1]:

Time

  • 2025.Jan

Key Words

  • appearance features and motion features in parallel
  • attention-base appearance reconstruction

总结

  1. 视频数据和算法推动了MOT的进步,当现有的MOT的数据集主要关注遮挡和外观相似,复杂的运动模式被广泛地忽略了,为了解决这个问题,引入了一个新的dataset称之为BEE24,来突出复杂的运动。id关联算法是MOT研究的长期的焦点。现有的trackers关联范式分为两类:single-feature(基于appearance or motion feature) 和serial paradigm(one feature serves as secondary while other is primary)。然而,这些范式不能完全利用不同的特征。本文中,作者提出了一个并行的范式,提出了Two Round Parallel matchImg mechanism来执行。TOPIC 利用了motion和appearance features,能够自适应地基于motion level选择更有利的一个作为assignment metric。另外,作者提出了attention-based appearance reconstruction module,来重建appearance feature embeddings,增强appearance features的表征。

    阅读全文 »

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking[1]

作者是来自南京大学的Ruopeng Gao和Limin Wang。论文引用[1]:Gao, Ruopeng and Limin Wang. “MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 9867-9876.

Time

  • 2024.Feb

Key Words

  • long-term temporal information

总结

  1. MOT是希望能够有效地得到目标的时序信息。不幸地是,现有的方法只显式地利用了相邻帧的目标特征,然而缺乏建模长程信息的能力。在本文中,提出了MeMOTR,一个长程的记忆增强的Transformer,用于多目标跟踪。作者的方法是,通过利用带有customized memory-attention layer的长期的记忆,能够使相同目标的track embedding更加stable和distinguishable。这显著提高了模型的目标关联能力。
阅读全文 »

Simple Cues Lead to a Strong Multi-Object Tracker[1]

作者是来自慕尼黑工业大学和慕尼黑机器学习中心的Jenny Seidenschwarz等人,论文引用[1]:Seidenschwarz, Jenny et al. “Simple Cues Lead to a Strong Multi-Object Tracker.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 13813-13823.

Time

  • 2023.Apr

Key Words

  • domain-specific knowledge
  • 一句话来说:在之前的TbD的范式基础上,提出了两个方案:一个是实时域适应:对于reID,源数据集的statistics可能和target ones不匹配,对于MOT任务,每个sequence的statistics可能都不一样,代表着一个新的domain,所以用one-the-fly DA来防止reID models应用在不同的sequences上的时候的性能退化。这里作者用了current batch的均值和方差来更新BN layer;另外,在计算distance computation的时候,对active tracks和inactive tracks分开处理,用不同match threshold 来处理active tracks和inactive tracks

总结

  1. 很长时间以来,MOT中的大多数的范式是Tracking-by-detection(TBD)。目标先进行检测,然后关联。对于关联,大多数的模型利用motion和外观cues,例如reid。最近基于attention的方法提出用数据驱动的方式来学习cues。有很好的效果。这篇文章中,作者提出了疑问:简单的TBD的方法能够也实现端到端的性能。作者提出了两个关键的要素,使得标准的reid网络在基于外观的跟踪方面表现出色。作者分析了它的失败的情况,将appearance features和简单的运动模型结合会有一个很好的跟踪结果。
阅读全文 »

BoT-SORT: Robust Association Multi-Pedestrian Tracking[1]

作者是来自Tel-Aviv大学的Nir Aharon等人。论文引用[1]: Aharon, Nir et al. “BoT-SORT: Robust Associations Multi-Pedestrian Tracking.” ArXiv abs/2206.14651 (2022): n. pag.

Time

  • 2022.Jul

Key Words

  • IoU-ReID cosine-distance fusion
  • 一句话来说:用了CMC和IoU-ReID fusion来更近association.

总结

  1. 多目标跟踪的目标是检测和跟踪场景中的所有目标,同时每个目标保持一个唯一的id。本文中,作者提出了一个新的SOTA的tracker,能够结合motion和appearance information,还有camera-motion compensation和一个更精确的kalman filter state vector。
阅读全文 »
0%