Young's Blog

featureSORT

发表于 2025-03-07 更新于 2025-03-12 分类于 Papers 本文字数： 6k 阅读时长 ≈ 22 分钟

FeatureSORT: Essential Features for Effective Tracking^[1]

作者是来自韩国的Hamidreza Hashempoor等人。论文引用[1]:Hashempoor, Hamidreza et al. “FeatureSORT: Essential Features for Effective Tracking.” ArXiv abs/2407.04249 (2024): n. pag.

Time

2024.July

Key Words

multiple feature modules
measurement-to-track associated distance function
Global linking for missing association
Gaussian Smoothing Process for missing detection
一句话来说：在DeepSORT的基础上，结合了多种信息，Style、Direction、BoT(ReID)、motion state等，在后处理上，增加了Global Linking和GSP，增强了tracker的性能。

总结

在这个工作中，我们提出了一种新型跟踪器，专为在线多目标跟踪设计，在保持高效性的同时注重简洁性。作者提供了多个feature modules，每个代表以各种appearance information。通过集成这些不同的appearance features，包括衣服颜色，style，target direction，还有一个ReID网络用于embedding extraction，作者的tracker显著地提高了跟踪精度。另外，作者引入了更强的detector，提供了先进的后处理方法，能够进一步提高tracker的性能。在实时operation的时候，建立measurement-to-track的关联距离函数，包括IOU, Direction, color, style, 和edge(ReID features) similarity information，每个metric的计算是分开的。有了这个feature-related distance function，在更长的遮挡的时候，是有可能跟踪objects的，能够保持id切换相对比较低。大量的实验评估表明在跟踪精度和可靠性上有了显著的提升。具体表现为身份切换次数减少、遮挡处理能力增强。这些进展不仅推动了目标跟踪领域的技术前沿，更为未来需要高精度与高可靠性的研究及实际应用（如自动驾驶、视频监控等）提供了新的探索方向与技术路径。

阅读全文 »

SMILEtrack

发表于 2025-03-07 更新于 2025-03-12 分类于 Papers 本文字数： 2.6k 阅读时长 ≈ 10 分钟

SMILEtrack: A Simple and Effective Multi-Object Tracking Method^[1]

作者是来自台湾的Yu-Hsiang Wang、Jun-Wei Hsieh等人。论文引用[1]:Wang, Yuhan et al. “SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking.” AAAI Conference on Artificial Intelligence (2022).

Time

2024.Jan

Key Words

Siamese network-based Similarity Learning Module
Similarity Matching Cascade with a novel GATE function
一句话来说，首先不是端到端的，用了单独的detector，然后，还是基于TbD框架的，detector是YOLOX，重点是在association上，用了一个Similarity Learning Module(SLM)，一个Siamese的网络来做相似性度量，IoU + ReID，然后，在提appearance embedding的时候用了一个Patch self-attention，然后就是一个 Similarity Matching Cascade(SMC)的association的思路。其它的没有什么

总结

尽管MOT领域最近取得了一些进展，还是有一些难点例如遮挡和相似目标、以及复杂场景。同时，对于流行的tracking-by-detection范式的cost-performance tradeoff的系统性的研究仍然是缺乏的。本文介绍了SMILEtrack，一个新的object tracker，通过将一个高效地object detector结合Siamese network-based Similarity Learning Module(SLM)，有效地解决这些挑战。SMILEtrack的主要贡献有两个方面：首先，提出了SLM，计算两个objects之间的相似度，克服了Separate Detection和embedding models之间的feature descriptors的局限。SLM受ViT的启发，引入了Patch Self-Attention block，能够为精确地相似度匹配产生可靠的features。其次，开发了一个Similarity Matching Cascade(SMC) module with a novel GATE function，用于robust object matching，进一步增强MOT的性能。SMILEtrack实现了cost和performance的平衡。

阅读全文 »

MotionTrack

发表于 2025-03-06 更新于 2025-03-27 分类于 Papers 本文字数： 4.5k 阅读时长 ≈ 16 分钟

MotionTrack: Learning Motion Predictor for Multiple Object Tracking^[1]

作者是来自国防科大、京东、美团等机构的Changcheng Xiao、Qiong Cao等人。论文引用[1]:Qin, Zheng et al. “MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object Tracking.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 17939-17948.

Time

2024.Mar

Key Words

long trajectory
motion predictor
一句话来说：之前的MOT方法使用detection、appearance features来做，但是motion information 被忽略了，之气的motion model一般都是用kalman filter，作者利用Transformer的long-term dependencies的能力，利用历史的轨迹信息，来预测下一帧的位置。这里就用了token-level和channel-level两个granularity的信息，分别用多头自注意力和DyMLP来处理，然后进行融合，object motion prediction的目标是基于object的历史轨迹信息，预测其bbox的相对空间位移。

总结

通过detection的进步和reid方法，MOT领域有了很大的进步。尽管有了这些成就，精确地跟踪有着一致的外观和不同的运动的场景仍然是一个挑战，这个挑战来自于两个因素：ReID特征的不够充分的区分度和MOT中线性运动的模型的利用。在这个背景下，引入了一个新的基于Motion的tracker, MotionTrack。以一个可学习的motion predictor为中心，仅依赖于object trajectory information。这个predictor 全面地集成了motion features中的两个level的粒度，来增强时序动态建模能力，为每个objects提升准确的motion prediction。具体地说，提出的方式采用了自注意力机制，来得到token-level的information 和一个动态MLP layer来建模channel-level features。MotionTrack是一个简单、在线的tracking方法。

阅读全文 »

PolaFormer

发表于 2025-03-06 更新于 2025-03-11 分类于 Papers 本文字数： 281 阅读时长 ≈ 1 分钟

PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers^[1]

作者是来自HITshenzhen、PCL和UQ的Weikang Meng, Yadan Luo等人。论文引用[1]:Meng, Weikang et al. “PolaFormer: Polarity-aware Linear Attention for Vision Transformers.” ArXiv abs/2501.15061 (2025): n. pag.

Time

2025.Mar

### Key Words

总结

线性注意力是一个有前景的替代softmax-based 的attention 方法，利用kernelized feature maps将复杂度从quadratic降低到linear in sequence length。然后，non-negative constraint on feature maps和在approximation中用到的 relaxed exponential function 导致重要的信息丢失(相比于原始的query-key dot products)，导致 less discriminative attention maps with higher entropy。为了解决negative values in query-key pairs的丢失的interactions，作者提出了polar-aware linear attention mechnism，显式地建模 same-signed 和opposite-signed query-key interactions，确保relational information的全面的收敛。另外，为了恢复attention maps的spiky properties，作者提供了一个理论分析，证明了existence of a class of element-wise functions(with positive first and second derivatives) that can reduce entropy in the attention distribution。为了简单起见和识别每个维度的distinct contributions，作者采用了可学习的power function for rescaling，允许strong和weak attention signals 能够有效地分开。

阅读全文 »

FairMOT

发表于 2025-02-24 更新于 2025-03-13 分类于 Papers 本文字数： 5.2k 阅读时长 ≈ 19 分钟

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking^[1]

作者是来自华科和微软的Yifu Zhang等人。论文引用[1]:Zhang, Yifu et al. “FairMOT: On the Fairness of Detection and Re-identification in Multiple Object Tracking.” International Journal of Computer Vision 129 (2020): 3069 - 3087.

Time

2021.Oct

Key Words

object detection and re-id in a single network
一句话来说：就是在single network中，结合detection和re-id的多任务学习，同时避免了之前的基于anchor的reID feature的带来的ambiguity和feature conflict的问题。FairMOT的detection branch是基于CenterNet、anchor-free的方式，re-ID 是feature dimension为64，实现了更好的效果。

总结

MOT在CV中是一个重要的任务，将MOT表述为单个网络中的object detection和 re-id的多任务学习 is appealing，因为它运训两个任务的联合优化，计算效率高。然而，作者发现，两个任务倾向于彼此竞争，需要谨慎处理。特别地，之前的任务通常将Re-id作为一个附属任务，它的精度被之前的detection task严重影响。因此，网络会偏向detection，对 re-id not fair。为了解决这个问题，作者提出了一个简单有效的方法，称之为 FairMOT，基于CenterNet，注意到，这不是简单的centerNet和Re-id的结合。相反，作者展示了很多细节的设计，这些对实现一个好的结果很重要。这个方法在检测和跟踪上实现了很好的精度。

阅读全文 »

ReID

发表于 2025-02-18 更新于 2025-03-02 分类于 Papers 本文字数： 5.3k 阅读时长 ≈ 19 分钟

Deep Learning for Person Re-identification(ReID): A Survey and Outlook^[1]

作者是来自武大等机构的Mang Ye等人。论文引用[1]:Ye, Mang et al. “Deep Learning for Person Re-Identification: A Survey and Outlook.” IEEE Transactions on Pattern Analysis and Machine Intelligence 44 (2020): 2872-2893.

Time

2022.June

总结

人物的reid被广泛地作为一个特定人物在不同摄像头之间的的检索问题，给定一个感兴趣的人物的query，ReID的目标是决定这个人物是否出现在一个不同的摄像头、不同的时间和地点中，或者是同一个摄像头在不同的时间。这个query person 可以由一张图像、一个video sequence进行表示，甚至是text description，由于公共安全的需要和监控摄像头数量的增加，person ReID在智能监控领域急需的。

阅读全文 »

TOPIC

发表于 2025-02-14 更新于 2025-02-15 分类于 Papers 本文字数： 4.1k 阅读时长 ≈ 15 分钟

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes^[1]

作者是来自北大等机构的Xiaoyan Cao, Yiyao Zheng等人。论文引用[1]:

Time

2025.Jan

Key Words

appearance features and motion features in parallel
attention-base appearance reconstruction

总结

视频数据和算法推动了MOT的进步，当现有的MOT的数据集主要关注遮挡和外观相似，复杂的运动模式被广泛地忽略了，为了解决这个问题，引入了一个新的dataset称之为BEE24，来突出复杂的运动。id关联算法是MOT研究的长期的焦点。现有的trackers关联范式分为两类：single-feature(基于appearance or motion feature) 和serial paradigm(one feature serves as secondary while other is primary)。然而，这些范式不能完全利用不同的特征。本文中，作者提出了一个并行的范式，提出了Two Round Parallel matchImg mechanism来执行。TOPIC 利用了motion和appearance features，能够自适应地基于motion level选择更有利的一个作为assignment metric。另外，作者提出了attention-based appearance reconstruction module，来重建appearance feature embeddings，增强appearance features的表征。
阅读全文 »

MeMOTR

发表于 2025-02-10 分类于 Papers 本文字数： 3.4k 阅读时长 ≈ 12 分钟

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking^[1]

作者是来自南京大学的Ruopeng Gao和Limin Wang。论文引用[1]:Gao, Ruopeng and Limin Wang. “MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 9867-9876.

Time

2024.Feb

Key Words

long-term temporal information

总结

MOT是希望能够有效地得到目标的时序信息。不幸地是，现有的方法只显式地利用了相邻帧的目标特征，然而缺乏建模长程信息的能力。在本文中，提出了MeMOTR，一个长程的记忆增强的Transformer，用于多目标跟踪。作者的方法是，通过利用带有customized memory-attention layer的长期的记忆，能够使相同目标的track embedding更加stable和distinguishable。这显著提高了模型的目标关联能力。

阅读全文 »

GHOST

发表于 2025-01-08 更新于 2025-03-13 分类于 Papers 本文字数： 3.4k 阅读时长 ≈ 12 分钟

Simple Cues Lead to a Strong Multi-Object Tracker^[1]

作者是来自慕尼黑工业大学和慕尼黑机器学习中心的Jenny Seidenschwarz等人，论文引用[1]:Seidenschwarz, Jenny et al. “Simple Cues Lead to a Strong Multi-Object Tracker.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 13813-13823.

Time

2023.Apr

Key Words

domain-specific knowledge
一句话来说：在之前的TbD的范式基础上，提出了两个方案：一个是实时域适应：对于reID,源数据集的statistics可能和target ones不匹配，对于MOT任务，每个sequence的statistics可能都不一样，代表着一个新的domain，所以用one-the-fly DA来防止reID models应用在不同的sequences上的时候的性能退化。这里作者用了current batch的均值和方差来更新BN layer；另外，在计算distance computation的时候，对active tracks和inactive tracks分开处理，用不同match threshold 来处理active tracks和inactive tracks。

总结

很长时间以来，MOT中的大多数的范式是Tracking-by-detection(TBD)。目标先进行检测，然后关联。对于关联，大多数的模型利用motion和外观cues，例如reid。最近基于attention的方法提出用数据驱动的方式来学习cues。有很好的效果。这篇文章中，作者提出了疑问：简单的TBD的方法能够也实现端到端的性能。作者提出了两个关键的要素，使得标准的reid网络在基于外观的跟踪方面表现出色。作者分析了它的失败的情况，将appearance features和简单的运动模型结合会有一个很好的跟踪结果。

阅读全文 »

BoT-SORT

发表于 2025-01-08 更新于 2025-03-13 分类于 Papers 本文字数： 2.6k 阅读时长 ≈ 9 分钟

BoT-SORT: Robust Association Multi-Pedestrian Tracking^[1]

作者是来自Tel-Aviv大学的Nir Aharon等人。论文引用[1]: Aharon, Nir et al. “BoT-SORT: Robust Associations Multi-Pedestrian Tracking.” ArXiv abs/2206.14651 (2022): n. pag.

Time

2022.Jul

Key Words

IoU-ReID cosine-distance fusion
一句话来说：用了CMC和IoU-ReID fusion来更近association.

总结

多目标跟踪的目标是检测和跟踪场景中的所有目标，同时每个目标保持一个唯一的id。本文中，作者提出了一个新的SOTA的tracker，能够结合motion和appearance information，还有camera-motion compensation和一个更精确的kalman filter state vector。

阅读全文 »

FeatureSORT: Essential Features for Effective Tracking[1]

Time

Key Words

总结

SMILEtrack: A Simple and Effective Multi-Object Tracking Method[1]

Time

Key Words

总结

MotionTrack: Learning Motion Predictor for Multiple Object Tracking[1]

Time

Key Words

总结

PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers[1]

Time

### Key Words

总结

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking[1]

Time

Key Words

总结

Deep Learning for Person Re-identification(ReID): A Survey and Outlook[1]

Time

总结

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes[1]

Time

Key Words

总结

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking[1]

Time

Key Words

总结

Simple Cues Lead to a Strong Multi-Object Tracker[1]

Time

Key Words

总结

BoT-SORT: Robust Association Multi-Pedestrian Tracking[1]

Time

Key Words

总结

FeatureSORT: Essential Features for Effective Tracking^[1]

SMILEtrack: A Simple and Effective Multi-Object Tracking Method^[1]

MotionTrack: Learning Motion Predictor for Multiple Object Tracking^[1]

PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers^[1]

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking^[1]

Deep Learning for Person Re-identification(ReID): A Survey and Outlook^[1]

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes^[1]

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking^[1]

Simple Cues Lead to a Strong Multi-Object Tracker^[1]

BoT-SORT: Robust Association Multi-Pedestrian Tracking^[1]