PoLaFormer: Polarity-Aware Linear Attention for Vision Transformers[1]

作者是来自HITshenzhen、PCL和UQ的Weikang Meng, Yadan Luo等人。论文引用[1]:Meng, Weikang et al. “PolaFormer: Polarity-aware Linear Attention for Vision Transformers.” ArXiv abs/2501.15061 (2025): n. pag.

Time

  • 2025.Mar

### Key Words

总结

  1. 线性注意力是一个有前景的替代softmax-based 的attention 方法,利用kernelized feature maps将复杂度从quadratic降低到linear in sequence length。然后,non-negative constraint on feature maps和在approximation中用到的 relaxed exponential function 导致重要的信息丢失(相比于原始的query-key dot products),导致 less discriminative attention maps with higher entropy。为了解决negative values in query-key pairs的 丢失的interactions,作者提出了polar-aware linear attention mechnism,显式地建模 same-signed 和opposite-signed query-key interactions,确保relational information的全面的收敛。另外,为了恢复attention maps的spiky properties,作者提供了一个理论分析,证明了existence of a class of element-wise functions(with positive first and second derivatives) that can reduce entropy in the attention distribution。为了简单起见和识别每个维度的distinct contributions,作者采用了可学习的power function for rescaling,允许strong和weak attention signals 能够有效地分开。
阅读全文 »

FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking[1]

作者是来自华科和微软的Yifu Zhang等人。论文引用[1]:Zhang, Yifu et al. “FairMOT: On the Fairness of Detection and Re-identification in Multiple Object Tracking.” International Journal of Computer Vision 129 (2020): 3069 - 3087.

Time

  • 2021.Oct

Key Words

  • object detection and re-id in a single network
  • 一句话来说:就是在single network中,结合detection和re-id的多任务学习,同时避免了之前的基于anchor的reID feature的带来的ambiguity和feature conflict的问题。FairMOT的detection branch是基于CenterNet、anchor-free的方式,re-ID 是feature dimension为64,实现了更好的效果

总结

  1. MOT在CV中是一个重要的任务,将MOT表述为单个网络中的object detection和 re-id的多任务学习 is appealing,因为它运训两个任务的联合优化,计算效率高。然而,作者发现,两个任务倾向于彼此竞争,需要谨慎处理。特别地,之前的任务通常将Re-id作为一个附属任务,它的精度被之前的detection task严重影响。因此,网络会偏向detection,对 re-id not fair。为了解决这个问题,作者提出了一个简单有效的方法,称之为 FairMOT,基于CenterNet,注意到,这不是简单的centerNet和Re-id的结合。相反,作者展示了很多细节的设计,这些对实现一个好的结果很重要。这个方法在检测和跟踪上实现了很好的精度。
阅读全文 »

Deep Learning for Person Re-identification(ReID): A Survey and Outlook[1]

作者是来自武大等机构的Mang Ye等人。论文引用[1]:Ye, Mang et al. “Deep Learning for Person Re-Identification: A Survey and Outlook.” IEEE Transactions on Pattern Analysis and Machine Intelligence 44 (2020): 2872-2893.

Time

  • 2022.June

总结

  1. 人物的reid被广泛地作为一个特定人物在不同摄像头之间的的检索问题,给定一个感兴趣的人物的query,ReID的目标是决定这个人物是否出现在一个不同的摄像头、不同的时间和地点中,或者是同一个摄像头在不同的时间。这个query person 可以由一张图像、一个video sequence进行表示,甚至是text description,由于公共安全的需要和监控摄像头数量的增加,person ReID在智能监控领域急需的。
阅读全文 »

TOPIC: A Parallel Association Paradigm for Multi-Object Tracking Under Complex Motions and Diverse Scenes[1]

作者是来自北大等机构的Xiaoyan Cao, Yiyao Zheng等人。论文引用[1]:

Time

  • 2025.Jan

Key Words

  • appearance features and motion features in parallel
  • attention-base appearance reconstruction

总结

  1. 视频数据和算法推动了MOT的进步,当现有的MOT的数据集主要关注遮挡和外观相似,复杂的运动模式被广泛地忽略了,为了解决这个问题,引入了一个新的dataset称之为BEE24,来突出复杂的运动。id关联算法是MOT研究的长期的焦点。现有的trackers关联范式分为两类:single-feature(基于appearance or motion feature) 和serial paradigm(one feature serves as secondary while other is primary)。然而,这些范式不能完全利用不同的特征。本文中,作者提出了一个并行的范式,提出了Two Round Parallel matchImg mechanism来执行。TOPIC 利用了motion和appearance features,能够自适应地基于motion level选择更有利的一个作为assignment metric。另外,作者提出了attention-based appearance reconstruction module,来重建appearance feature embeddings,增强appearance features的表征。

    阅读全文 »

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking[1]

作者是来自南京大学的Ruopeng Gao和Limin Wang。论文引用[1]:Gao, Ruopeng and Limin Wang. “MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 9867-9876.

Time

  • 2024.Feb

Key Words

  • long-term temporal information

总结

  1. MOT是希望能够有效地得到目标的时序信息。不幸地是,现有的方法只显式地利用了相邻帧的目标特征,然而缺乏建模长程信息的能力。在本文中,提出了MeMOTR,一个长程的记忆增强的Transformer,用于多目标跟踪。作者的方法是,通过利用带有customized memory-attention layer的长期的记忆,能够使相同目标的track embedding更加stable和distinguishable。这显著提高了模型的目标关联能力。
阅读全文 »

Simple Cues Lead to a Strong Multi-Object Tracker[1]

作者是来自慕尼黑工业大学和慕尼黑机器学习中心的Jenny Seidenschwarz等人,论文引用[1]:Seidenschwarz, Jenny et al. “Simple Cues Lead to a Strong Multi-Object Tracker.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 13813-13823.

Time

  • 2023.Apr

Key Words

  • domain-specific knowledge
  • 一句话来说:在之前的TbD的范式基础上,提出了两个方案:一个是实时域适应:对于reID,源数据集的statistics可能和target ones不匹配,对于MOT任务,每个sequence的statistics可能都不一样,代表着一个新的domain,所以用one-the-fly DA来防止reID models应用在不同的sequences上的时候的性能退化。这里作者用了current batch的均值和方差来更新BN layer;另外,在计算distance computation的时候,对active tracks和inactive tracks分开处理,用不同match threshold 来处理active tracks和inactive tracks

总结

  1. 很长时间以来,MOT中的大多数的范式是Tracking-by-detection(TBD)。目标先进行检测,然后关联。对于关联,大多数的模型利用motion和外观cues,例如reid。最近基于attention的方法提出用数据驱动的方式来学习cues。有很好的效果。这篇文章中,作者提出了疑问:简单的TBD的方法能够也实现端到端的性能。作者提出了两个关键的要素,使得标准的reid网络在基于外观的跟踪方面表现出色。作者分析了它的失败的情况,将appearance features和简单的运动模型结合会有一个很好的跟踪结果。
阅读全文 »

BoT-SORT: Robust Association Multi-Pedestrian Tracking[1]

作者是来自Tel-Aviv大学的Nir Aharon等人。论文引用[1]: Aharon, Nir et al. “BoT-SORT: Robust Associations Multi-Pedestrian Tracking.” ArXiv abs/2206.14651 (2022): n. pag.

Time

  • 2022.Jul

Key Words

  • IoU-ReID cosine-distance fusion
  • 一句话来说:用了CMC和IoU-ReID fusion来更近association.

总结

  1. 多目标跟踪的目标是检测和跟踪场景中的所有目标,同时每个目标保持一个唯一的id。本文中,作者提出了一个新的SOTA的tracker,能够结合motion和appearance information,还有camera-motion compensation和一个更精确的kalman filter state vector。
阅读全文 »

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking[1]

作者是来自大连理工和深圳TVT公司的Mingzhan Yang等人,论文引用[1]:Yang, Ming-Hsuan et al. “Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.” AAAI Conference on Artificial Intelligence (2023).

Time

  • 2024.Jan

Key Words

  • weak cues like confidence state and height state
  • 一句话总结:在OC-SORT的基础上,除了常用的stong cues例如apppearance feature和spatial cues(IoU),还引入了weak cues例如confidence state和height state for matching

总结

  1. 多目标旨在检测和逐帧关联所有理想的目标。大多数的方法通过显式或隐式的利用strong cues,例如空间和外观信息来完成这个任务,展示出了很强的instance-level的判别能力。然而你,当目标遮挡或者聚集的时候, 空间和外观信息可能会变得模糊,因为目标的高度重叠。在本文中,展示了可以通过利用weak cues来补偿strong cues来完成这个任务。沿着速度的方向,引入置信度和height state作为潜在的weak cues。有着卓越的性能,作者的方法仍然保持Simple, Online, Real-time的特性。另外,作者的方法展示了对于多个trackers和场景的泛化性,能够即插即用,training-free。将这个方法应用到5个不同的有代表性的trackers上的时候,有很大的提升。
阅读全文 »

MOTR: End-to-End Multiple-Object Tracking[1]

作者是来自旷视和上交的Fangao Zeng等人。论文引用[1]:Zeng, Fangao et al. “MOTR: End-to-End Multiple-Object Tracking with TRansformer.” ArXiv abs/2105.03247 (2021): n. pag.

Time

  • 2022.Jul

Key Words

  • track query and detect query
  • 一句话总结:MOTR引入了track query,隐式地学习appearance和position variances,将MOT formulate为一个set of sequence prediction,iteratively update和predict tracky query from previous hidden states,用tracklet-aware label assignment for one-to-one assignment between track queries and objects,换句话说,tracked objects的position实际上是通过decoder对track queries iteratively update和predict得到的,这是一种隐式的produce。

总结

  1. 目标的时序建模时MOT中的一个关键挑战。现有的方法时通过基于运动和外观相似度的方式来关联detections。这个关联的后处理的本质阻止了对视频序列中时序变化的端到端的利用。本文中,提出了MMOTR,扩展了DETR,并且引入track query来建模视频中的tracked instances。Track query会被transferred,然后逐帧地更新,来实现iterative prediction。作者提出了tracklet-aware label assignment来训练track queries和newborn object queries。作者进一步提出了Temporal aggregation network和collective average loss来增强temporal relation modeling。
阅读全文 »

Simple Online and Real-Time Tracking with a Deep Association Metric[1]

作者是来自University of Koblenz-Landau的Nicolai Wojke, Alex Bewley等人。论文引用[1]:Wojke, Nicolai et al. “Simple online and realtime tracking with a deep association metric.” 2017 IEEE International Conference on Image Processing (ICIP) (2017): 3645-3649.

Time

  • 2017.Mar

Key Words

  • more informed association metric that combines motion and appearance information

总结

  1. SORT是一个多目标跟踪的实用的方法,简单高效。本文中,将外观信息集成,来提高SORT的性能。因为这个扩展,能够跟踪更长时间的遮挡的目标,有效地降低了ID切换。原始的框架中,将很多的计算复杂度放在了预训练阶段,在一个大规模的person re-id数据集上学习一个deep association metric。在在线应用的时候,用视觉外观空间中的最近的queries,建立一个measurement-to-track association。
阅读全文 »
0%