Notes

  1. SSM是用于描述这些状态表示,并根据某些输入预测其下一个状态可能是什么的模型,一般的输入是连续序列。SSM的核心方程: \[ \begin{align*} \text{State equation} & \quad h'(t) = A h(t) + B x(t) \\ \text{Output equation} & \quad y(t) = C h(t) + D x(t) \end{align*}\] 为了能够处理离散数据,对离散数据进行连续化,使用零阶保持技术,zero-order hold(ZOH)。有了连续的信号,就可以根据输入的时间对值进行采样。通过HiPPO初始化,处理长距离依赖

References

  • https://blog.csdn.net/v_JULY_v/article/details/134923301

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising[1]

作者是来自hkust等机构的Feng Li、Hao Zhang等人。论文引用[1]:Li, F., Zhang, H., Liu, S., Guo, J., Ni, L.M., & Zhang, L. (2022). DN-DETR: Accelerate DETR Training by Introducing Query DeNoising. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13609-13617.

Time

  • 2022.Dec

Key Words

  • Denosing Training
  • 一句话来说:作者发现DETRs方法收敛慢的一个主要原因在于bipartite matching,这个matching训练的时候不稳定。于是增加了denoising training for boxes和labels,能够加速收敛,提高了性能

总结

  1. 作者展示了denosing training的方法,能够加速DETR的训练,提供了对于DETR-like方法的收敛慢的深刻的理解。作者展示了收敛慢是由于bipartite matching的不稳定造成早期阶段的不一致优化目标。为了解决这个问题,除了匈牙利loss,作者的方法额外的将带有噪声的GT bboxes给到Transformer decoder中,训练模型来重建original boxes,能够有效地降低bipartite graph matching的困难,导致更快的收敛。作者的方法是通用的,能够很容易地插入到任何DETR-like的模型中,实现很好的提升。
阅读全文 »

Learning Data Association for Multi-Object Tracking[1]

作者是来自蒙特利尔理工的Mehdi Miah等人,论文引用[1]:

  • 2024.Mar

### Key Words

总结

SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking[1]

作者是来自谢菲尔德大学的Jiaxin Li等人,论文引用[1]:Li, Jiaxin et al. “SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking.” Sensors (Basel, Switzerland) 22 (2022): n. pag.

Time

  • 2022.Mar

Key Words

  • EG matrix
  • 一句话总结:用了embedding 和Giou 作为similarity matrix,也是JDE-based方法,借鉴了bytetrack、FairMOT等工作的思路

总结

  1. Joint Detection和embedding(JDE) 的方法通常用于估计bboxes和objects的embedding features,用single network,在tracking的时候,JDE-based方法融合target motion information和appearance information by applying the same rule,当target丢失或者blocked的时候,就不太行了。为了克服这个问题,作者提出了一个新的association matrix,Embedding and GiOU matrix,结合了embedding cosine distance和Giou distance。为了进一步提高data association的performance,作者开发了一个简单高效的tracker named SimpleTrack。设计了一个bottom-up fusion method for reid,提出了一个新的tracking strategy based on EG matrix。
阅读全文 »

Engineering an Efficient Object Tracker for Non-Linear Motion[1]

作者是来自贝尔格莱德大学的Momir Adzemovic等人,论文引用[1]:Adzemovic, Momir et al. “Engineering an Efficient Object Tracker for Non-Linear Motion.” ArXiv abs/2407.00738 (2024): n. pag.

Time

  • 2024.Jun

Key Words

  • 一句话总结:作者用TransFilter代替了传统的KF filter,然后,,用上了CMC,加了很多的先验,改进了association方法,例如DT-IoU,HPC和ATCM等

总结

  1. MOT的目标是检测和跟踪场景里的所有目标,通过逐帧关联它们的bboxes,为每个目标维护一个唯一的ID,这个关联依赖于matching motion和检测目标的appearance patterns。这个任务在涉及动态和非线性运动模式的场景中比较困难,在本文中,作者提出了DeepMoveSORT,一个新的、engineered 多目标跟踪器。出了标准的基于appearance的关联之外,作者通过采用deep learnable filters和一些新的先验,提高了motion-based association。作者在motion-based association上的提高有几个方面。首先,作者提出了一个新的transformer-based filter architecture,TransFilter,用object的motion history 用于motion prediction和noise filtering。作者进一步通过仔细地处理motion history和补偿相机运动。第二,作者提出了一些先验,利用position、shape和检测到的bboxes,来提高association 的性能。作者的实验表明,DeepMoveSORT在非线性场景中超过了现有的跟踪器

    阅读全文 »

MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking[1]

作者是来自华盛顿大学的Hsiang-Wei Huang等人,论文引用[1]:Huang, Hsiang-Wei et al. “MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking.” ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024): n. pag.

Time

  • 2025.Jan

Key Words

  • Mamba motion prediction
  • 一句话总结:利用Mamba结构,代替传统的基于卡尔曼滤波器的motion model方法,输入是N帧的tracklets,输出是下一帧的tracklet的location的预测,实现基于深度学习的motion prediction

总结

  1. 在MOT中,传统的方法依赖于KF for motion prediction,利用它在线性运动中的优势,然而,这些方法内在的局限变得明显,当遇到复杂、非线性motions和occlusions的时候,这个文章探索了,利用earning-based motion model,能够有效地增强tracking accuracy和adaptability beyond constraints of KF-based tracker的可能性。在文章中,作者提出了MambaMOT。
阅读全文 »

FeatureSORT: Essential Features for Effective Tracking[1]

作者是来自韩国的Hamidreza Hashempoor等人。论文引用[1]:Hashempoor, Hamidreza et al. “FeatureSORT: Essential Features for Effective Tracking.” ArXiv abs/2407.04249 (2024): n. pag.

Time

  • 2024.July

Key Words

  • multiple feature modules
  • measurement-to-track associated distance function
  • Global linking for missing association
  • Gaussian Smoothing Process for missing detection
  • 一句话来说:在DeepSORT的基础上,结合了多种信息,Style、Direction、BoT(ReID)、motion state等,在后处理上,增加了Global Linking和GSP,增强了tracker的性能。

总结

  1. 在这个工作中,我们提出了一种新型跟踪器,专为在线多目标跟踪设计,在保持高效性的同时注重简洁性。作者提供了多个feature modules,每个代表以各种appearance information。通过集成这些不同的appearance features,包括衣服颜色,style,target direction,还有一个ReID网络用于embedding extraction,作者的tracker显著地提高了跟踪精度。另外,作者引入了更强的detector,提供了先进的后处理方法,能够进一步提高tracker的性能。在实时operation的时候,建立measurement-to-track的关联距离函数,包括IOU, Direction, color, style, 和edge(ReID features) similarity information,每个metric的计算是分开的。有了这个feature-related distance function,在更长的遮挡的时候,是有可能跟踪objects的,能够保持id切换相对比较低。大量的实验评估表明在跟踪精度和可靠性上有了显著的提升。具体表现为身份切换次数减少、遮挡处理能力增强。这些进展不仅推动了目标跟踪领域的技术前沿,更为未来需要高精度与高可靠性的研究及实际应用(如自动驾驶、视频监控等)提供了新的探索方向与技术路径。
阅读全文 »

SMILEtrack: A Simple and Effective Multi-Object Tracking Method[1]

作者是来自台湾的Yu-Hsiang Wang、Jun-Wei Hsieh等人。论文引用[1]:Wang, Yuhan et al. “SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking.” AAAI Conference on Artificial Intelligence (2022).

Time

  • 2024.Jan

Key Words

  • Siamese network-based Similarity Learning Module

  • Similarity Matching Cascade with a novel GATE function

  • 一句话来说,首先不是端到端的,用了单独的detector,然后,还是基于TbD框架的,detector是YOLOX,重点是在association上,用了一个Similarity Learning Module(SLM),一个Siamese的网络来做相似性度量,IoU + ReID,然后,在提appearance embedding的时候用了一个Patch self-attention,然后就是一个 Similarity Matching Cascade(SMC)的association的思路。其它的没有什么

总结

  1. 尽管MOT领域最近取得了一些进展,还是有一些难点例如遮挡和相似目标、以及复杂场景。同时,对于流行的tracking-by-detection范式的cost-performance tradeoff的系统性的研究仍然是缺乏的。本文介绍了SMILEtrack,一个新的object tracker,通过将一个高效地object detector结合Siamese network-based Similarity Learning Module(SLM),有效地解决这些挑战。SMILEtrack的主要贡献有两个方面:首先,提出了SLM,计算两个objects之间的相似度,克服了Separate Detection和embedding models之间的feature descriptors的局限。SLM受ViT的启发,引入了Patch Self-Attention block,能够为精确地相似度匹配产生可靠的features。其次,开发了一个Similarity Matching Cascade(SMC) module with a novel GATE function,用于robust object matching,进一步增强MOT的性能。SMILEtrack实现了cost和performance的平衡。
阅读全文 »

MotionTrack: Learning Motion Predictor for Multiple Object Tracking[1]

作者是来自国防科大、京东、美团等机构的Changcheng Xiao、Qiong Cao等人。论文引用[1]:Qin, Zheng et al. “MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object Tracking.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 17939-17948.

Time

  • 2024.Mar

Key Words

  • long trajectory
  • motion predictor
  • 一句话来说:之前的MOT方法使用detection、appearance features来做,但是motion information 被忽略了,之气的motion model一般都是用kalman filter,作者利用Transformer的long-term dependencies的能力,利用历史的轨迹信息,来预测下一帧的位置。这里就用了token-level和channel-level两个granularity的信息,分别用多头自注意力和DyMLP来处理,然后进行融合,object motion prediction的目标是基于object的历史轨迹信息,预测其bbox的相对空间位移

总结

  1. 通过detection的进步和reid方法,MOT领域有了很大的进步。尽管有了这些成就,精确地跟踪有着一致的外观和不同的运动的场景仍然是一个挑战,这个挑战来自于两个因素:ReID特征的不够充分的区分度和MOT中线性运动的模型的利用在这个背景下,引入了一个新的基于Motion的tracker, MotionTrack。以一个可学习的motion predictor为中心,仅依赖于object trajectory information。这个predictor 全面地集成了motion features中的两个level的粒度,来增强时序动态建模能力,为每个objects提升准确的motion prediction。具体地说,提出的方式采用了自注意力机制,来得到token-level的information 和一个动态MLP layer来建模channel-level features。MotionTrack是一个简单、在线的tracking方法。
阅读全文 »
0%