MOTIP
Multiple Object Tracking as ID Prediction[1]
作者是来自南大、上海AI Lab和中国移动的Ruopeng Gao、Yijun Zhang和Limin Wang。论文引用[1]:Gao, Ruopeng et al. “Multiple Object Tracking as ID Prediction.” ArXiv abs/2403.16848 (2024): n. pag.
Time
- 2024.Mar
Key Words
- end-to-end in-context ID prediction
总结
- 在多目标跟踪中,tracking-by-detection方法经历了很多测试,将这个过程分为检测和关联阶段,利用鲁棒的单帧检测器,通过人工设计的启发式算法和代理任务,将目标关联视为一个后处理步骤。然而,启发式方法的本质是阻止了对端到端训练数据的利用,导致当面临复杂或者新的场景的时候,增加的人为的修改。在本文中,将目标关联任务视为一个端到端的in-context ID预测问题,提出了一个baseline称之为MOTIP。特别地,当考虑将对应的IDs作为in-context prompts时,将target embeddings嵌入到历史轨迹信息中,然后直接预测当前帧的目标的ID labels。MOTIP能够直接从训练数据中学习tracking capabilities,将其从繁重的人工算法中解放出来。