MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking[1]

作者是来自南京大学的Ruopeng Gao和Limin Wang。论文引用[1]:Gao, Ruopeng and Limin Wang. “MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 9867-9876.

Time

  • 2024.Feb

Key Words

  • long-term temporal information

总结

  1. MOT是希望能够有效地得到目标的时序信息。不幸地是,现有的方法只显式地利用了相邻帧的目标特征,然而缺乏建模长程信息的能力。在本文中,提出了MeMOTR,一个长程的记忆增强的Transformer,用于多目标跟踪。作者的方法是,通过利用带有customized memory-attention layer的长期的记忆,能够使相同目标的track embedding更加stable和distinguishable。这显著提高了模型的目标关联能力。
阅读全文 »

Simple Cues Lead to a Strong Multi-Object Tracker[1]

作者是来自慕尼黑工业大学和慕尼黑机器学习中心的Jenny Seidenschwarz等人,论文引用[1]:Seidenschwarz, Jenny et al. “Simple Cues Lead to a Strong Multi-Object Tracker.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 13813-13823.

Time

  • 2023.Apr

Key Words

  • domain-specific knowledge
  • 一句话来说:在之前的TbD的范式基础上,提出了两个方案:一个是实时域适应:对于reID,源数据集的statistics可能和target ones不匹配,对于MOT任务,每个sequence的statistics可能都不一样,代表着一个新的domain,所以用one-the-fly DA来防止reID models应用在不同的sequences上的时候的性能退化。这里作者用了current batch的均值和方差来更新BN layer;另外,在计算distance computation的时候,对active tracks和inactive tracks分开处理,用不同match threshold 来处理active tracks和inactive tracks

总结

  1. 很长时间以来,MOT中的大多数的范式是Tracking-by-detection(TBD)。目标先进行检测,然后关联。对于关联,大多数的模型利用motion和外观cues,例如reid。最近基于attention的方法提出用数据驱动的方式来学习cues。有很好的效果。这篇文章中,作者提出了疑问:简单的TBD的方法能够也实现端到端的性能。作者提出了两个关键的要素,使得标准的reid网络在基于外观的跟踪方面表现出色。作者分析了它的失败的情况,将appearance features和简单的运动模型结合会有一个很好的跟踪结果。
阅读全文 »

BoT-SORT: Robust Association Multi-Pedestrian Tracking[1]

作者是来自Tel-Aviv大学的Nir Aharon等人。论文引用[1]: Aharon, Nir et al. “BoT-SORT: Robust Associations Multi-Pedestrian Tracking.” ArXiv abs/2206.14651 (2022): n. pag.

Time

  • 2022.Jul

Key Words

  • IoU-ReID cosine-distance fusion
  • 一句话来说:用了CMC和IoU-ReID fusion来更近association.

总结

  1. 多目标跟踪的目标是检测和跟踪场景中的所有目标,同时每个目标保持一个唯一的id。本文中,作者提出了一个新的SOTA的tracker,能够结合motion和appearance information,还有camera-motion compensation和一个更精确的kalman filter state vector。
阅读全文 »

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking[1]

作者是来自大连理工和深圳TVT公司的Mingzhan Yang等人,论文引用[1]:Yang, Ming-Hsuan et al. “Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.” AAAI Conference on Artificial Intelligence (2023).

Time

  • 2024.Jan

Key Words

  • weak cues like confidence state and height state
  • 一句话总结:在OC-SORT的基础上,除了常用的stong cues例如apppearance feature和spatial cues(IoU),还引入了weak cues例如confidence state和height state for matching

总结

  1. 多目标旨在检测和逐帧关联所有理想的目标。大多数的方法通过显式或隐式的利用strong cues,例如空间和外观信息来完成这个任务,展示出了很强的instance-level的判别能力。然而你,当目标遮挡或者聚集的时候, 空间和外观信息可能会变得模糊,因为目标的高度重叠。在本文中,展示了可以通过利用weak cues来补偿strong cues来完成这个任务。沿着速度的方向,引入置信度和height state作为潜在的weak cues。有着卓越的性能,作者的方法仍然保持Simple, Online, Real-time的特性。另外,作者的方法展示了对于多个trackers和场景的泛化性,能够即插即用,training-free。将这个方法应用到5个不同的有代表性的trackers上的时候,有很大的提升。
阅读全文 »

MOTR: End-to-End Multiple-Object Tracking[1]

作者是来自旷视和上交的Fangao Zeng等人。论文引用[1]:Zeng, Fangao et al. “MOTR: End-to-End Multiple-Object Tracking with TRansformer.” ArXiv abs/2105.03247 (2021): n. pag.

Time

  • 2022.Jul

Key Words

  • track query and detect query
  • 一句话总结:MOTR引入了track query,隐式地学习appearance和position variances,将MOT formulate为一个set of sequence prediction,iteratively update和predict tracky query from previous hidden states,用tracklet-aware label assignment for one-to-one assignment between track queries and objects,换句话说,tracked objects的position实际上是通过decoder对track queries iteratively update和predict得到的,这是一种隐式的produce。

总结

  1. 目标的时序建模时MOT中的一个关键挑战。现有的方法时通过基于运动和外观相似度的方式来关联detections。这个关联的后处理的本质阻止了对视频序列中时序变化的端到端的利用。本文中,提出了MMOTR,扩展了DETR,并且引入track query来建模视频中的tracked instances。Track query会被transferred,然后逐帧地更新,来实现iterative prediction。作者提出了tracklet-aware label assignment来训练track queries和newborn object queries。作者进一步提出了Temporal aggregation network和collective average loss来增强temporal relation modeling。
阅读全文 »

Simple Online and Real-Time Tracking with a Deep Association Metric[1]

作者是来自University of Koblenz-Landau的Nicolai Wojke, Alex Bewley等人。论文引用[1]:Wojke, Nicolai et al. “Simple online and realtime tracking with a deep association metric.” 2017 IEEE International Conference on Image Processing (ICIP) (2017): 3645-3649.

Time

  • 2017.Mar

Key Words

  • more informed association metric that combines motion and appearance information

总结

  1. SORT是一个多目标跟踪的实用的方法,简单高效。本文中,将外观信息集成,来提高SORT的性能。因为这个扩展,能够跟踪更长时间的遮挡的目标,有效地降低了ID切换。原始的框架中,将很多的计算复杂度放在了预训练阶段,在一个大规模的person re-id数据集上学习一个deep association metric。在在线应用的时候,用视觉外观空间中的最近的queries,建立一个measurement-to-track association。
阅读全文 »

StrongSORT: Make DeepSORT Great Again[1]

作者是来自北邮、上海AI Lab和英国Brunel University London的Yunhao Du, Zhicheng Zhao等人,论文引用[1]:Du, Yunhao et al. “StrongSORT: Make DeepSORT Great Again.” IEEE Transactions on Multimedia 25 (2022): 8725-8737.

Time

  • 2023.Feb

Key Words

  • missing association and missing detection
  • appearance-free link model
  • Gaussian smoothing interpolation
  • 一句话来说:在DeepSORT的基础上,更换了一些组件和策略,例如检测器YOLOX、EMA、ECC、NSA Kalman、Motion Cost、Vanilla Matching,另外,针对missing association和missing detections,提出了appearance-free link model和Gaussian smoothing interpolation,

总结

  1. 最近,MOT吸引了很多的注意力,有了很多的进展。然而,现有的方法倾向于用多个基本的模型(检测器和嵌入模型)和不同的训练或者推理tricks。因此,构建一个好的baseline用于公平的对比是重要的。本文中首先回顾经典的tracker DeepSORT,然后从不同的角度进行改进,例如目标检测,特征嵌入和轨迹关联。提出的tracker称之为StrongSORT,为MOT社区贡献了一个强的和fair的baseline。更多的,两个轻量的和即插即用的算法被提出来了,用于解决MOT缺失的问题:缺失的关联和缺失的检测。特别地,不同于大多数的方法,用很高的计算复杂度将短的tracklet关联成完整的轨迹。作者提出了一个appearance-free link model(AFLink),不需要外观信息进行全局关联。实现了速度和精度的很好的平衡。另外,提出了高斯平滑插值,基于高斯过程回归来缓解丢掉的检测。AFLink和GSI可以很容易地插入到多个tracker中,有可以忽略的额外的计算成本。最后,通过将StrongSORT和AFLink和GSI融合,得到最终的tracker(StrongSORT++).
阅读全文 »

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory[1]

作者是来自华盛顿大学的Cheng-Yen Yang, Hsiang-Wei Huang等人。论文引用[1]:Yang, Cheng-Yen et al. “SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory.” ArXiv abs/2411.11922 (2024): n. pag.

Time

  • 2024.Nov

Key Words

  • kalman filter-based motion modeling
  • memory selection based on a hybrid scoring system that combines affinity and motion scores

总结

  1. SAM2在目标分割任务上展示了强大的能力,但是在视觉目标跟踪上面临挑战,特别是当一些快速移动或者遮挡的目标的场景的时候。另外,原始模型中的固定窗口记忆方法没有考虑选择的记忆的质量来约束下一帧的图像特征,导致视频中的误差传播。本文介绍了SAMURAI,一个SAM2的增强的版本,用于视觉目标跟踪。通过引入时序运动线索和提出的运动感知选择机制,SAMURAI能够有效的预测目标的运动和修正掩膜选择,实现鲁棒的、精确的跟踪,不需要重新训练或者微调。SAMURAI能够实时操作,展示了强大的zero-shto的性能。
阅读全文 »

Multiple Object Tracking as ID Prediction[1]

作者是来自南大、上海AI Lab和中国移动的Ruopeng Gao、Yijun Zhang和Limin Wang。论文引用[1]:Gao, Ruopeng et al. “Multiple Object Tracking as ID Prediction.” ArXiv abs/2403.16848 (2024): n. pag.

Time

  • 2024.Mar

Key Words

  • end-to-end in-context ID prediction

总结

  1. 在多目标跟踪中,tracking-by-detection方法经历了很多测试,将这个过程分为检测和关联阶段,利用鲁棒的单帧检测器,通过人工设计的启发式算法和代理任务,将目标关联视为一个后处理步骤。然而,启发式方法的本质是阻止了对端到端训练数据的利用,导致当面临复杂或者新的场景的时候,增加的人为的修改。在本文中,将目标关联任务视为一个端到端的in-context ID预测问题,提出了一个baseline称之为MOTIP。特别地,当考虑将对应的IDs作为in-context prompts时,将target embeddings嵌入到历史轨迹信息中,然后直接预测当前帧的目标的ID labels。MOTIP能够直接从训练数据中学习tracking capabilities,将其从繁重的人工算法中解放出来。
阅读全文 »

Simple Online and Realtime Tracking[1]

作者是来自Queensland Unversity of Technology和悉尼大学的Alex Bewley, Zongyuan Ge等人。论文引用[1]:Bewley, Alex et al. “Simple online and realtime tracking.” 2016 IEEE International Conference on Image Processing (ICIP) (2016): 3464-3468.

Time

  • 2017.Jul

Key Words

  • associate objects

总结

  1. 这篇文章探索了一个多目标跟踪的实用的方法,主要的焦点是有效地关联目标,用于实时的应用。为了这个目的,检测的质量是一个影响跟踪性能的重要因素。尽管只用基本的熟悉的组件的组合例如卡尔曼滤波和匈牙利算法用于跟踪,这个方法方法实现了类似于SOTA的精度。
阅读全文 »
0%