SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking[1]

作者是来自谢菲尔德大学的Jiaxin Li等人,论文引用[1]:Li, Jiaxin et al. “SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking.” Sensors (Basel, Switzerland) 22 (2022): n. pag.

Time

  • 2022.Mar

Key Words

  • EG matrix
  • 一句话总结:用了embedding 和Giou 作为similarity matrix,也是JDE-based方法,借鉴了bytetrack、FairMOT等工作的思路

总结

  1. Joint Detection和embedding(JDE) 的方法通常用于估计bboxes和objects的embedding features,用single network,在tracking的时候,JDE-based方法融合target motion information和appearance information by applying the same rule,当target丢失或者blocked的时候,就不太行了。为了克服这个问题,作者提出了一个新的association matrix,Embedding and GiOU matrix,结合了embedding cosine distance和Giou distance。为了进一步提高data association的performance,作者开发了一个简单高效的tracker named SimpleTrack。设计了一个bottom-up fusion method for reid,提出了一个新的tracking strategy based on EG matrix。
阅读全文 »

Engineering an Efficient Object Tracker for Non-Linear Motion[1]

作者是来自贝尔格莱德大学的Momir Adzemovic等人,论文引用[1]:Adzemovic, Momir et al. “Engineering an Efficient Object Tracker for Non-Linear Motion.” ArXiv abs/2407.00738 (2024): n. pag.

Time

  • 2024.Jun

Key Words

  • 一句话总结:作者用TransFilter代替了传统的KF filter,然后,,用上了CMC,加了很多的先验,改进了association方法,例如DT-IoU,HPC和ATCM等

总结

  1. MOT的目标是检测和跟踪场景里的所有目标,通过逐帧关联它们的bboxes,为每个目标维护一个唯一的ID,这个关联依赖于matching motion和检测目标的appearance patterns。这个任务在涉及动态和非线性运动模式的场景中比较困难,在本文中,作者提出了DeepMoveSORT,一个新的、engineered 多目标跟踪器。出了标准的基于appearance的关联之外,作者通过采用deep learnable filters和一些新的先验,提高了motion-based association。作者在motion-based association上的提高有几个方面。首先,作者提出了一个新的transformer-based filter architecture,TransFilter,用object的motion history 用于motion prediction和noise filtering。作者进一步通过仔细地处理motion history和补偿相机运动。第二,作者提出了一些先验,利用position、shape和检测到的bboxes,来提高association 的性能。作者的实验表明,DeepMoveSORT在非线性场景中超过了现有的跟踪器

    阅读全文 »

MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking[1]

作者是来自华盛顿大学的Hsiang-Wei Huang等人,论文引用[1]:Huang, Hsiang-Wei et al. “MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking.” ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024): n. pag.

Time

  • 2025.Jan

Key Words

  • Mamba motion prediction
  • 一句话总结:利用Mamba结构,代替传统的基于卡尔曼滤波器的motion model方法,输入是N帧的tracklets,输出是下一帧的tracklet的location的预测,实现基于深度学习的motion prediction

总结

  1. 在MOT中,传统的方法依赖于KF for motion prediction,利用它在线性运动中的优势,然而,这些方法内在的局限变得明显,当遇到复杂、非线性motions和occlusions的时候,这个文章探索了,利用earning-based motion model,能够有效地增强tracking accuracy和adaptability beyond constraints of KF-based tracker的可能性。在文章中,作者提出了MambaMOT。
阅读全文 »

FeatureSORT: Essential Features for Effective Tracking[1]

作者是来自韩国的Hamidreza Hashempoor等人。论文引用[1]:Hashempoor, Hamidreza et al. “FeatureSORT: Essential Features for Effective Tracking.” ArXiv abs/2407.04249 (2024): n. pag.

Time

  • 2024.July

Key Words

  • multiple feature modules
  • measurement-to-track associated distance function
  • Global linking for missing association
  • Gaussian Smoothing Process for missing detection
  • 一句话来说:在DeepSORT的基础上,结合了多种信息,Style、Direction、BoT(ReID)、motion state等,在后处理上,增加了Global Linking和GSP,增强了tracker的性能。

总结

  1. 在这个工作中,我们提出了一种新型跟踪器,专为在线多目标跟踪设计,在保持高效性的同时注重简洁性。作者提供了多个feature modules,每个代表以各种appearance information。通过集成这些不同的appearance features,包括衣服颜色,style,target direction,还有一个ReID网络用于embedding extraction,作者的tracker显著地提高了跟踪精度。另外,作者引入了更强的detector,提供了先进的后处理方法,能够进一步提高tracker的性能。在实时operation的时候,建立measurement-to-track的关联距离函数,包括IOU, Direction, color, style, 和edge(ReID features) similarity information,每个metric的计算是分开的。有了这个feature-related distance function,在更长的遮挡的时候,是有可能跟踪objects的,能够保持id切换相对比较低。大量的实验评估表明在跟踪精度和可靠性上有了显著的提升。具体表现为身份切换次数减少、遮挡处理能力增强。这些进展不仅推动了目标跟踪领域的技术前沿,更为未来需要高精度与高可靠性的研究及实际应用(如自动驾驶、视频监控等)提供了新的探索方向与技术路径。
阅读全文 »

SMILEtrack: A Simple and Effective Multi-Object Tracking Method[1]

作者是来自台湾的Yu-Hsiang Wang、Jun-Wei Hsieh等人。论文引用[1]:Wang, Yuhan et al. “SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking.” AAAI Conference on Artificial Intelligence (2022).

Time

  • 2024.Jan

Key Words

  • Siamese network-based Similarity Learning Module

  • Similarity Matching Cascade with a novel GATE function

  • 一句话来说,首先不是端到端的,用了单独的detector,然后,还是基于TbD框架的,detector是YOLOX,重点是在association上,用了一个Similarity Learning Module(SLM),一个Siamese的网络来做相似性度量,IoU + ReID,然后,在提appearance embedding的时候用了一个Patch self-attention,然后就是一个 Similarity Matching Cascade(SMC)的association的思路。其它的没有什么

总结

  1. 尽管MOT领域最近取得了一些进展,还是有一些难点例如遮挡和相似目标、以及复杂场景。同时,对于流行的tracking-by-detection范式的cost-performance tradeoff的系统性的研究仍然是缺乏的。本文介绍了SMILEtrack,一个新的object tracker,通过将一个高效地object detector结合Siamese network-based Similarity Learning Module(SLM),有效地解决这些挑战。SMILEtrack的主要贡献有两个方面:首先,提出了SLM,计算两个objects之间的相似度,克服了Separate Detection和embedding models之间的feature descriptors的局限。SLM受ViT的启发,引入了Patch Self-Attention block,能够为精确地相似度匹配产生可靠的features。其次,开发了一个Similarity Matching Cascade(SMC) module with a novel GATE function,用于robust object matching,进一步增强MOT的性能。SMILEtrack实现了cost和performance的平衡。
阅读全文 »

MotionTrack: Learning Motion Predictor for Multiple Object Tracking[1]

作者是来自国防科大、京东、美团等机构的Changcheng Xiao、Qiong Cao等人。论文引用[1]:Qin, Zheng et al. “MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object Tracking.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 17939-17948.

Time

  • 2024.Mar

Key Words

  • long trajectory
  • motion predictor
  • 一句话来说:之前的MOT方法使用detection、appearance features来做,但是motion information 被忽略了,之气的motion model一般都是用kalman filter,作者利用Transformer的long-term dependencies的能力,利用历史的轨迹信息,来预测下一帧的位置。这里就用了token-level和channel-level两个granularity的信息,分别用多头自注意力和DyMLP来处理,然后进行融合,object motion prediction的目标是基于object的历史轨迹信息,预测其bbox的相对空间位移

总结

  1. 通过detection的进步和reid方法,MOT领域有了很大的进步。尽管有了这些成就,精确地跟踪有着一致的外观和不同的运动的场景仍然是一个挑战,这个挑战来自于两个因素:ReID特征的不够充分的区分度和MOT中线性运动的模型的利用在这个背景下,引入了一个新的基于Motion的tracker, MotionTrack。以一个可学习的motion predictor为中心,仅依赖于object trajectory information。这个predictor 全面地集成了motion features中的两个level的粒度,来增强时序动态建模能力,为每个objects提升准确的motion prediction。具体地说,提出的方式采用了自注意力机制,来得到token-level的information 和一个动态MLP layer来建模channel-level features。MotionTrack是一个简单、在线的tracking方法。
阅读全文 »

PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers[1]

作者是来自HITshenzhen、PCL和UQ的Weikang Meng, Yadan Luo等人。论文引用[1]:Meng, Weikang et al. “PolaFormer: Polarity-aware Linear Attention for Vision Transformers.” ArXiv abs/2501.15061 (2025): n. pag.

Time

  • 2025.Mar

### Key Words

总结

  1. 线性注意力是一个有前景的替代softmax-based 的attention 方法,利用kernelized feature maps将复杂度从quadratic降低到linear in sequence length。然后,non-negative constraint on feature maps和在approximation中用到的 relaxed exponential function 导致重要的信息丢失(相比于原始的query-key dot products),导致 less discriminative attention maps with higher entropy。为了解决negative values in query-key pairs的 丢失的interactions,作者提出了polar-aware linear attention mechnism,显式地建模 same-signed 和opposite-signed query-key interactions,确保relational information的全面的收敛。另外,为了恢复attention maps的spiky properties,作者提供了一个理论分析,证明了existence of a class of element-wise functions(with positive first and second derivatives) that can reduce entropy in the attention distribution。为了简单起见和识别每个维度的distinct contributions,作者采用了可学习的power function for rescaling,允许strong和weak attention signals 能够有效地分开。
阅读全文 »

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking[1]

作者是来自华科和微软的Yifu Zhang等人。论文引用[1]:Zhang, Yifu et al. “FairMOT: On the Fairness of Detection and Re-identification in Multiple Object Tracking.” International Journal of Computer Vision 129 (2020): 3069 - 3087.

Time

  • 2021.Oct

Key Words

  • object detection and re-id in a single network
  • 一句话来说:就是在single network中,结合detection和re-id的多任务学习,同时避免了之前的基于anchor的reID feature的带来的ambiguity和feature conflict的问题。FairMOT的detection branch是基于CenterNet、anchor-free的方式,re-ID 是feature dimension为64,实现了更好的效果

总结

  1. MOT在CV中是一个重要的任务,将MOT表述为单个网络中的object detection和 re-id的多任务学习 is appealing,因为它运训两个任务的联合优化,计算效率高。然而,作者发现,两个任务倾向于彼此竞争,需要谨慎处理。特别地,之前的任务通常将Re-id作为一个附属任务,它的精度被之前的detection task严重影响。因此,网络会偏向detection,对 re-id not fair。为了解决这个问题,作者提出了一个简单有效的方法,称之为 FairMOT,基于CenterNet,注意到,这不是简单的centerNet和Re-id的结合。相反,作者展示了很多细节的设计,这些对实现一个好的结果很重要。这个方法在检测和跟踪上实现了很好的精度。
阅读全文 »

Deep Learning for Person Re-identification(ReID): A Survey and Outlook[1]

作者是来自武大等机构的Mang Ye等人。论文引用[1]:Ye, Mang et al. “Deep Learning for Person Re-Identification: A Survey and Outlook.” IEEE Transactions on Pattern Analysis and Machine Intelligence 44 (2020): 2872-2893.

Time

  • 2022.June

总结

  1. 人物的reid被广泛地作为一个特定人物在不同摄像头之间的的检索问题,给定一个感兴趣的人物的query,ReID的目标是决定这个人物是否出现在一个不同的摄像头、不同的时间和地点中,或者是同一个摄像头在不同的时间。这个query person 可以由一张图像、一个video sequence进行表示,甚至是text description,由于公共安全的需要和监控摄像头数量的增加,person ReID在智能监控领域急需的。
阅读全文 »

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes[1]

作者是来自北大等机构的Xiaoyan Cao, Yiyao Zheng等人。论文引用[1]:

Time

  • 2025.Jan

Key Words

  • appearance features and motion features in parallel
  • attention-base appearance reconstruction

总结

  1. 视频数据和算法推动了MOT的进步,当现有的MOT的数据集主要关注遮挡和外观相似,复杂的运动模式被广泛地忽略了,为了解决这个问题,引入了一个新的dataset称之为BEE24,来突出复杂的运动。id关联算法是MOT研究的长期的焦点。现有的trackers关联范式分为两类:single-feature(基于appearance or motion feature) 和serial paradigm(one feature serves as secondary while other is primary)。然而,这些范式不能完全利用不同的特征。本文中,作者提出了一个并行的范式,提出了Two Round Parallel matchImg mechanism来执行。TOPIC 利用了motion和appearance features,能够自适应地基于motion level选择更有利的一个作为assignment metric。另外,作者提出了attention-based appearance reconstruction module,来重建appearance feature embeddings,增强appearance features的表征。

    阅读全文 »
0%