Young's Blog

hybrid-SORT

发表于 2025-01-06 更新于 2025-03-13 分类于 Papers 本文字数： 3.1k 阅读时长 ≈ 11 分钟

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking^[1]

作者是来自大连理工和深圳TVT公司的Mingzhan Yang等人，论文引用[1]:Yang, Ming-Hsuan et al. “Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.” AAAI Conference on Artificial Intelligence (2023).

Time

2024.Jan

Key Words

weak cues like confidence state and height state
一句话总结：在OC-SORT的基础上，除了常用的stong cues例如apppearance feature和spatial cues(IoU)，还引入了weak cues例如confidence state和height state for matching。

总结

多目标旨在检测和逐帧关联所有理想的目标。大多数的方法通过显式或隐式的利用strong cues，例如空间和外观信息来完成这个任务，展示出了很强的instance-level的判别能力。然而你，当目标遮挡或者聚集的时候，空间和外观信息可能会变得模糊，因为目标的高度重叠。在本文中，展示了可以通过利用weak cues来补偿strong cues来完成这个任务。沿着速度的方向，引入置信度和height state作为潜在的weak cues。有着卓越的性能，作者的方法仍然保持Simple, Online, Real-time的特性。另外，作者的方法展示了对于多个trackers和场景的泛化性，能够即插即用，training-free。将这个方法应用到5个不同的有代表性的trackers上的时候，有很大的提升。

阅读全文 »

MOTR

发表于 2024-12-31 更新于 2025-04-03 分类于 Papers 本文字数： 3.6k 阅读时长 ≈ 13 分钟

MOTR: End-to-End Multiple-Object Tracking^[1]

作者是来自旷视和上交的Fangao Zeng等人。论文引用[1]:Zeng, Fangao et al. “MOTR: End-to-End Multiple-Object Tracking with TRansformer.” ArXiv abs/2105.03247 (2021): n. pag.

Time

2022.Jul

Key Words

track query and detect query
一句话总结：MOTR引入了track query，隐式地学习appearance和position variances，将MOT formulate为一个set of sequence prediction，iteratively update和predict tracky query from previous hidden states，用tracklet-aware label assignment for one-to-one assignment between track queries and objects，换句话说，tracked objects的position实际上是通过decoder对track queries iteratively update和predict得到的，这是一种隐式的produce。

总结

目标的时序建模时MOT中的一个关键挑战。现有的方法时通过基于运动和外观相似度的方式来关联detections。这个关联的后处理的本质阻止了对视频序列中时序变化的端到端的利用。本文中，提出了MMOTR，扩展了DETR，并且引入track query来建模视频中的tracked instances。Track query会被transferred，然后逐帧地更新，来实现iterative prediction。作者提出了tracklet-aware label assignment来训练track queries和newborn object queries。作者进一步提出了Temporal aggregation network和collective average loss来增强temporal relation modeling。

阅读全文 »

DeepSORT

发表于 2024-12-29 更新于 2025-03-27 分类于 Papers 本文字数： 2.2k 阅读时长 ≈ 8 分钟

Simple Online and Real-Time Tracking with a Deep Association Metric^[1]

作者是来自University of Koblenz-Landau的Nicolai Wojke, Alex Bewley等人。论文引用[1]:Wojke, Nicolai et al. “Simple online and realtime tracking with a deep association metric.” 2017 IEEE International Conference on Image Processing (ICIP) (2017): 3645-3649.

Time

2017.Mar

Key Words

more informed association metric that combines motion and appearance information

总结

SORT是一个多目标跟踪的实用的方法，简单高效。本文中，将外观信息集成，来提高SORT的性能。因为这个扩展，能够跟踪更长时间的遮挡的目标，有效地降低了ID切换。原始的框架中，将很多的计算复杂度放在了预训练阶段，在一个大规模的person re-id数据集上学习一个deep association metric。在在线应用的时候，用视觉外观空间中的最近的queries，建立一个measurement-to-track association。

阅读全文 »

StrongSORT

发表于 2024-12-17 更新于 2025-03-13 分类于 Papers 本文字数： 4.5k 阅读时长 ≈ 17 分钟

StrongSORT: Make DeepSORT Great Again^[1]

作者是来自北邮、上海AI Lab和英国Brunel University London的Yunhao Du, Zhicheng Zhao等人，论文引用[1]:Du, Yunhao et al. “StrongSORT: Make DeepSORT Great Again.” IEEE Transactions on Multimedia 25 (2022): 8725-8737.

Time

2023.Feb

Key Words

missing association and missing detection
appearance-free link model
Gaussian smoothing interpolation
一句话来说：在DeepSORT的基础上，更换了一些组件和策略，例如检测器YOLOX、EMA、ECC、NSA Kalman、Motion Cost、Vanilla Matching，另外，针对missing association和missing detections，提出了appearance-free link model和Gaussian smoothing interpolation,

总结

最近，MOT吸引了很多的注意力，有了很多的进展。然而，现有的方法倾向于用多个基本的模型(检测器和嵌入模型)和不同的训练或者推理tricks。因此，构建一个好的baseline用于公平的对比是重要的。本文中首先回顾经典的tracker DeepSORT，然后从不同的角度进行改进，例如目标检测，特征嵌入和轨迹关联。提出的tracker称之为StrongSORT，为MOT社区贡献了一个强的和fair的baseline。更多的，两个轻量的和即插即用的算法被提出来了，用于解决MOT缺失的问题：缺失的关联和缺失的检测。特别地，不同于大多数的方法，用很高的计算复杂度将短的tracklet关联成完整的轨迹。作者提出了一个appearance-free link model(AFLink)，不需要外观信息进行全局关联。实现了速度和精度的很好的平衡。另外，提出了高斯平滑插值，基于高斯过程回归来缓解丢掉的检测。AFLink和GSI可以很容易地插入到多个tracker中，有可以忽略的额外的计算成本。最后，通过将StrongSORT和AFLink和GSI融合，得到最终的tracker(StrongSORT++).

阅读全文 »

SAMURAI

发表于 2024-12-17 更新于 2025-03-27 分类于 Papers 本文字数： 2.9k 阅读时长 ≈ 11 分钟

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory^[1]

作者是来自华盛顿大学的Cheng-Yen Yang, Hsiang-Wei Huang等人。论文引用[1]:Yang, Cheng-Yen et al. “SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory.” ArXiv abs/2411.11922 (2024): n. pag.

Time

2024.Nov

Key Words

kalman filter-based motion modeling
memory selection based on a hybrid scoring system that combines affinity and motion scores

总结

SAM2在目标分割任务上展示了强大的能力，但是在视觉目标跟踪上面临挑战，特别是当一些快速移动或者遮挡的目标的场景的时候。另外，原始模型中的固定窗口记忆方法没有考虑选择的记忆的质量来约束下一帧的图像特征，导致视频中的误差传播。本文介绍了SAMURAI，一个SAM2的增强的版本，用于视觉目标跟踪。通过引入时序运动线索和提出的运动感知选择机制，SAMURAI能够有效的预测目标的运动和修正掩膜选择，实现鲁棒的、精确的跟踪，不需要重新训练或者微调。SAMURAI能够实时操作，展示了强大的zero-shto的性能。

阅读全文 »

MOTIP

发表于 2024-12-17 更新于 2024-12-20 分类于 Papers 本文字数： 4.1k 阅读时长 ≈ 15 分钟

Multiple Object Tracking as ID Prediction^[1]

作者是来自南大、上海AI Lab和中国移动的Ruopeng Gao、Yijun Zhang和Limin Wang。论文引用[1]:Gao, Ruopeng et al. “Multiple Object Tracking as ID Prediction.” ArXiv abs/2403.16848 (2024): n. pag.

Time

2024.Mar

Key Words

end-to-end in-context ID prediction

总结

在多目标跟踪中，tracking-by-detection方法经历了很多测试，将这个过程分为检测和关联阶段，利用鲁棒的单帧检测器，通过人工设计的启发式算法和代理任务，将目标关联视为一个后处理步骤。然而，启发式方法的本质是阻止了对端到端训练数据的利用，导致当面临复杂或者新的场景的时候，增加的人为的修改。在本文中，将目标关联任务视为一个端到端的in-context ID预测问题，提出了一个baseline称之为MOTIP。特别地，当考虑将对应的IDs作为in-context prompts时，将target embeddings嵌入到历史轨迹信息中，然后直接预测当前帧的目标的ID labels。MOTIP能够直接从训练数据中学习tracking capabilities，将其从繁重的人工算法中解放出来。

阅读全文 »

SORT

发表于 2024-12-17 更新于 2025-03-27 分类于 Papers 本文字数： 2.1k 阅读时长 ≈ 8 分钟

Simple Online and Realtime Tracking^[1]

作者是来自Queensland Unversity of Technology和悉尼大学的Alex Bewley, Zongyuan Ge等人。论文引用[1]:Bewley, Alex et al. “Simple online and realtime tracking.” 2016 IEEE International Conference on Image Processing (ICIP) (2016): 3464-3468.

Time

2017.Jul

Key Words

associate objects

总结

这篇文章探索了一个多目标跟踪的实用的方法，主要的焦点是有效地关联目标，用于实时的应用。为了这个目的，检测的质量是一个影响跟踪性能的重要因素。尽管只用基本的熟悉的组件的组合例如卡尔曼滤波和匈牙利算法用于跟踪，这个方法方法实现了类似于SOTA的精度。

阅读全文 »

SparseTrack

发表于 2024-12-17 分类于 Papers 本文字数： 3.6k 阅读时长 ≈ 13 分钟

SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth^[1]

作者是来自华科的Zelin Liu, Xinggang Wang等人。论文引用[1]:Liu, Zelin et al. “SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth.” ArXiv abs/2306.05238 (2023): n. pag.

Time

2023.Nov

Key Words

sparse decomposition
a method for obtaining the relative depth of targets from 2D images: pseudo-depth
depth cascading matching(DCM)

总结

探索鲁棒的、高效的关联方法一直是MOT中重要的问题，尽管现有的跟踪方法实现了很好的性能，阻塞和频繁的遮挡仍然是MOT中挑战性的问题。作者表明了：在密集场景中进行sparse decomposition是增强关联遮挡目标的重要的步骤。为了这个目的，提出了一个pseudo-depth估计的方法，来得到2D图像中的targets的相对的深度。其次，设计了一个深度级联匹配算法，用得到的深度信息将dense target 多个稀疏的target subsets，在这些稀疏的target subsets中进行数据关联，以从近到远的方式。SparseTrack提供了一个新的视角，用于解决MOT中挑战性的拥挤场景。只用IoU匹配，SparseTrack实现了很好的性能。
阅读全文 »

Multi-Object Tracking Survey

发表于 2024-12-05 更新于 2025-03-02 分类于 Papers 本文字数： 17k 阅读时长 ≈ 1:01

Multi-Object Tracking Survey

来自论文:"Deep Learning in Video Multi-Object Tracking: A Survey", 作者是来自意大利和西班牙等院校的Gioele Ciaparrone等人。论文引用[1]:Ciaparrone, Gioele et al. “Deep learning in video multi-object tracking: A survey.” Neurocomputing 381 (2019): 61-88.

总结

多目标跟踪的问题是指在一个序列中跟踪不同目标的轨迹，通常是一个视频。近些年随着深度学习的兴起，算法从深度模型的表征能力中收益。本文提供了提供了用深度学习模型来解决MOT问题的全面的综述。
MOT问题不同于目标检测(输出一系列的bounding box)。MOT算法还将target ID和每个box(detection)进行关联，为了区分类内的目标。单目标跟踪中，目标的外观是已知的先验，在MOT中，检测这一步对于识别targets是必须的，追踪多个目标的主要困难在于多样的阻塞和目标之间的交互，有时它们还有相似的背景。因此，将单目标跟踪应用于多目标跟踪会导致目标漂移和多个ID切换，这样的模型通常在区分相似目标和类内目标的时候有困难。专门针对多目标跟踪的一系列的算法被调整出来，用于解决这个问题，还有数据benchmarks和比赛，来方便不同方法的对比。最近，很多的算法用深度学习来做，深度学习模型的长处在于学习丰富表征和提取特征。卷积神经网络长处在于空间模式提取，循环神经网络想LSTM用于处理时序数据。

阅读全文 »

ALIGN

发表于 2024-12-01 更新于 2025-03-02 分类于 Papers 本文字数： 2.6k 阅读时长 ≈ 9 分钟

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision^[1]

作者是来自Google的Chao Jia, Yinfei Yang等人，论文引用[1]:Jia, Chao et al. “Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision.” International Conference on Machine Learning (2021).

Time

2021.Jun

Key Words

总结

预训练表征对于很多NLP和感知任务很重要，当NLP中的表征学习不需要人类标注的时候，迁移到raw text上训练的时候，视觉和视觉语言表征仍然依然严重依赖于精心准备的训练集，这成本很高而且需要专家知识。对于视觉应用，通过很多有显示label的数据集例如ImageNet或者OpenImages来学习表征。对于视觉语言，流行的数据集例如Conceptual Captions, MSCOCO或者CLIP，都涉及non-trivial 数据收集的过程。这个费劲的精心挑选的过程限制了数据集的规模，阻碍了训练模型的scaling。在这篇文章中，作者利用一个超过十亿的图像文本对的有噪声的数据集，不需要费劲地过滤或者后处理步骤。一个简单地双编码器结构用对比损失，学习对齐图像文本对的视觉语言表征。展示了语料库的规模可以弥补其噪声，即使一个简单的学习策略，就能实现SOTA的表征。作者的视觉表征当迁移到例如ImageNet这样的分类任务时，实现了强大的性能。对齐的视觉语言表征enable zero-shot的图像分类和在数据集Flickr30K上达到SOTA，即使和更复杂的交叉注意力的模型相比，这些表征使能用复杂的文本和图像文本queries实现跨模态的搜索。

阅读全文 »

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking[1]

Time

Key Words

总结

MOTR: End-to-End Multiple-Object Tracking[1]

Time

Key Words

总结

Simple Online and Real-Time Tracking with a Deep Association Metric[1]

Time

Key Words

总结

StrongSORT: Make DeepSORT Great Again[1]

Time

Key Words

总结

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory[1]

Time

Key Words

总结

Multiple Object Tracking as ID Prediction[1]

Time

Key Words

总结

Simple Online and Realtime Tracking[1]

Time

Key Words

总结

SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth[1]

Time

Key Words

总结

Multi-Object Tracking Survey

总结

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision[1]

Time

Key Words

总结

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking^[1]

MOTR: End-to-End Multiple-Object Tracking^[1]

Simple Online and Real-Time Tracking with a Deep Association Metric^[1]

StrongSORT: Make DeepSORT Great Again^[1]

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory^[1]

Multiple Object Tracking as ID Prediction^[1]

Simple Online and Realtime Tracking^[1]

SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth^[1]

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision^[1]