Young's Blog

BLIP2

发表于 2025-03-28 更新于 2025-03-29 分类于 Papers 本文字数： 2.9k 阅读时长 ≈ 11 分钟

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models^[1]

作者是来自Salesforce Research的Junnan Li等人，论文引用[1]:Li, Junnan et al. “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” International Conference on Machine Learning (2023).

Time

2023.Jun

Key Words

一句话总结：BLIP-2是一个vision-language pretraining方法，bootstraps from frozen pretrained unimodal models，为了弥补modality gap，提出了Querying Transformer，用两个阶段进行预训练：第一阶段用一个frozen image encoder的vision-language representation learning；第二阶段是用一个frozen LLM的vision-to-language geneative learning stage.

总结

vision-and-language pre-training的成本由于端到端的large-scale models的训练，逐渐变得难以承受。本文提出的BLIP-2，通过现成的冻结预训练图像编码器和冻结的大型语言模型来引导视觉-语言预训练。BLIP-2 使用轻量级的查询变换器（Querying Transformer）来弥合模态间的差距，该Transformer分两个阶段进行预训练。第一阶段bootstraps vision-language representation learning from a frozen image encoder。第二个阶段是bootstraps vision-to-language generative learning from a frozen language model. BLIP-2 在多个视觉语言任务上去得到了SOTA的性能。尽管有更少的需要训练的参数，实现了更好的性能。

阅读全文 »

D-FINE

发表于 2025-03-28 更新于 2025-03-29 分类于 Papers 本文字数： 3.3k 阅读时长 ≈ 12 分钟

D-FINE: Redefine Regression Task in DETRs as Fine-Grained Distribution Refinement^[1]

作者是来自USTC等机构的Yansong Peng、Hebei Li等人。论文引用[1]:

Time

2024.Oct

Key Words

iteratively refining probability distributions, fine-grained intermediate representation
transfers localization knowledge from refined distributions to shallower layers through self-distillation

总结

作者的D-FINE，是一个实时的object detector，通过在DETR models中重新定义regression task，实现了很好地定位效果。D-FINE包含两个key components：Fine-grained distribution refinement(FDR)，和Global Optimal Localization Self-Distallation(GO-LSD)。FDR将预测固定的坐标的回归过程变为iteratively refining probability distributions，提供了fine-grained的intermediate representation，能够增强localization的精度。GO-LSD是一个双向的优化策略，将来自refined distributions的localization knowledge，通过self-distillation转移到shallow layer，简化了residual prediction tasks for deeper layers。另外，D-FINE在计算密集的modules和操作中，引入了lightweight optimizations，实现了速度和精度的平衡。

阅读全文 »

DEIM

发表于 2025-03-28 本文字数： 0 阅读时长 ≈ 1 分钟

MambaVision

发表于 2025-03-28 本文字数： 0 阅读时长 ≈ 1 分钟

Mamba

发表于 2025-03-28 更新于 2025-04-07 分类于 Papers 本文字数： 156 阅读时长 ≈ 1 分钟

Notes

SSM是用于描述这些状态表示，并根据某些输入预测其下一个状态可能是什么的模型，一般的输入是连续序列。SSM的核心方程： \[ \begin{align*} \text{State equation} & \quad h'(t) = A h(t) + B x(t) \\ \text{Output equation} & \quad y(t) = C h(t) + D x(t) \end{align*}\] 为了能够处理离散数据，对离散数据进行连续化，使用零阶保持技术,zero-order hold(ZOH)。有了连续的信号，就可以根据输入的时间对值进行采样。通过HiPPO初始化，处理长距离依赖。

References

https://blog.csdn.net/v_JULY_v/article/details/134923301

DN-DETR

发表于 2025-03-17 分类于 Papers 本文字数： 3.4k 阅读时长 ≈ 12 分钟

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising^[1]

作者是来自hkust等机构的Feng Li、Hao Zhang等人。论文引用[1]:Li, F., Zhang, H., Liu, S., Guo, J., Ni, L.M., & Zhang, L. (2022). DN-DETR: Accelerate DETR Training by Introducing Query DeNoising. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13609-13617.

Time

2022.Dec

Key Words

Denosing Training
一句话来说：作者发现DETRs方法收敛慢的一个主要原因在于bipartite matching，这个matching训练的时候不稳定。于是增加了denoising training for boxes和labels，能够加速收敛，提高了性能。

总结

作者展示了denosing training的方法，能够加速DETR的训练，提供了对于DETR-like方法的收敛慢的深刻的理解。作者展示了收敛慢是由于bipartite matching的不稳定造成早期阶段的不一致优化目标。为了解决这个问题，除了匈牙利loss，作者的方法额外的将带有噪声的GT bboxes给到Transformer decoder中，训练模型来重建original boxes，能够有效地降低bipartite graph matching的困难，导致更快的收敛。作者的方法是通用的，能够很容易地插入到任何DETR-like的模型中，实现很好的提升。

阅读全文 »

TWiX

发表于 2025-03-13 分类于 Papers 本文字数： 38 阅读时长 ≈ 1 分钟

Learning Data Association for Multi-Object Tracking^[1]

作者是来自蒙特利尔理工的Mehdi Miah等人，论文引用[1]:

2024.Mar

### Key Words

总结

SimpleTrack

发表于 2025-03-12 更新于 2025-04-02 分类于 Papers 本文字数： 1.1k 阅读时长 ≈ 4 分钟

SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking^[1]

作者是来自谢菲尔德大学的Jiaxin Li等人，论文引用[1]:Li, Jiaxin et al. “SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking.” Sensors (Basel, Switzerland) 22 (2022): n. pag.

Time

2022.Mar

Key Words

EG matrix
一句话总结：用了embedding 和Giou 作为similarity matrix，也是JDE-based方法，借鉴了bytetrack、FairMOT等工作的思路。

总结

Joint Detection和embedding(JDE) 的方法通常用于估计bboxes和objects的embedding features，用single network，在tracking的时候，JDE-based方法融合target motion information和appearance information by applying the same rule，当target丢失或者blocked的时候，就不太行了。为了克服这个问题，作者提出了一个新的association matrix，Embedding and GiOU matrix，结合了embedding cosine distance和Giou distance。为了进一步提高data association的performance，作者开发了一个简单高效的tracker named SimpleTrack。设计了一个bottom-up fusion method for reid，提出了一个新的tracking strategy based on EG matrix。

阅读全文 »

DeepMoveSORT

发表于 2025-03-12 更新于 2025-03-27 分类于 Papers 本文字数： 5k 阅读时长 ≈ 18 分钟

Engineering an Efficient Object Tracker for Non-Linear Motion^[1]

作者是来自贝尔格莱德大学的Momir Adzemovic等人，论文引用[1]:Adzemovic, Momir et al. “Engineering an Efficient Object Tracker for Non-Linear Motion.” ArXiv abs/2407.00738 (2024): n. pag.

Time

2024.Jun

Key Words

一句话总结：作者用TransFilter代替了传统的KF filter，然后，，用上了CMC，加了很多的先验，改进了association方法，例如DT-IoU，HPC和ATCM等。

总结

MOT的目标是检测和跟踪场景里的所有目标，通过逐帧关联它们的bboxes，为每个目标维护一个唯一的ID，这个关联依赖于matching motion和检测目标的appearance patterns。这个任务在涉及动态和非线性运动模式的场景中比较困难，在本文中，作者提出了DeepMoveSORT，一个新的、engineered 多目标跟踪器。出了标准的基于appearance的关联之外，作者通过采用deep learnable filters和一些新的先验，提高了motion-based association。作者在motion-based association上的提高有几个方面。首先，作者提出了一个新的transformer-based filter architecture，TransFilter，用object的motion history 用于motion prediction和noise filtering。作者进一步通过仔细地处理motion history和补偿相机运动。第二，作者提出了一些先验，利用position、shape和检测到的bboxes，来提高association 的性能。作者的实验表明，DeepMoveSORT在非线性场景中超过了现有的跟踪器
阅读全文 »

MambaMOT

发表于 2025-03-12 更新于 2025-03-27 分类于 Papers 本文字数： 2.1k 阅读时长 ≈ 8 分钟

MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking^[1]

作者是来自华盛顿大学的Hsiang-Wei Huang等人，论文引用[1]:Huang, Hsiang-Wei et al. “MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking.” ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024): n. pag.

Time

2025.Jan

Key Words

Mamba motion prediction
一句话总结：利用Mamba结构，代替传统的基于卡尔曼滤波器的motion model方法，输入是N帧的tracklets，输出是下一帧的tracklet的location的预测，实现基于深度学习的motion prediction

总结

在MOT中，传统的方法依赖于KF for motion prediction，利用它在线性运动中的优势，然而，这些方法内在的局限变得明显，当遇到复杂、非线性motions和occlusions的时候，这个文章探索了，利用earning-based motion model，能够有效地增强tracking accuracy和adaptability beyond constraints of KF-based tracker的可能性。在文章中，作者提出了MambaMOT。

阅读全文 »

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[1]

Time

Key Words

总结

D-FINE: Redefine Regression Task in DETRs as Fine-Grained Distribution Refinement[1]

Time

Key Words

总结

Notes

References

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising[1]

Time

Key Words

总结

Learning Data Association for Multi-Object Tracking[1]

### Key Words

总结

SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking[1]

Time

Key Words

总结

Engineering an Efficient Object Tracker for Non-Linear Motion[1]

Time

Key Words

总结

MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking[1]

Time

Key Words

总结

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models^[1]

D-FINE: Redefine Regression Task in DETRs as Fine-Grained Distribution Refinement^[1]

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising^[1]

Learning Data Association for Multi-Object Tracking^[1]

SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking^[1]

Engineering an Efficient Object Tracker for Non-Linear Motion^[1]

MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking^[1]