SimpleTrack
SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking[1]
作者是来自谢菲尔德大学的Jiaxin Li等人,论文引用[1]:Li, Jiaxin et al. “SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking.” Sensors (Basel, Switzerland) 22 (2022): n. pag.
Time
- 2022.Mar
Key Words
- EG matrix
- 一句话总结:用了embedding 和Giou 作为similarity matrix,也是JDE-based方法,借鉴了bytetrack、FairMOT等工作的思路。 ### 总结
- Joint Detection和embedding(JDE) 的方法通常用于估计bboxes和objects的embedding features,用single network,在tracking的时候,JDE-based方法融合target motion information和appearance information by applying the same rule,当target丢失或者blocked的时候,就不太行了。为了克服这个问题,作者提出了一个新的association matrix,Embedding and GiOU matrix,结合了embedding cosine distance和Giou distance。为了进一步提高data association的performance,作者开发了一个简单高效的tracker named SimpleTrack。设计了一个bottom-up fusion method for reid,提出了一个新的tracking strategy based on EG matrix。
MOT旨在估计视频序列中的多个目标的位置和identity。是CV中的一个挑战性的任务。最近,IoU和匈牙利方法通常在TbD方法中,用在tracking phase,然而,当target被遮挡的时候或者丢失的时候,很难仅用IoU来retrieve正确的identity。因此,targets的id切换会经常发生。为了缓解这个问题,很多方法开始引入了ReID,JDE-based方法因为它们的simplicity和efficienty变得流行。
在data association中,similarity measurement的精度决定了tracking performance。大多数的detection-based方法用IoU distance作为similarity matrix,然而,JDE-based方法融合motion information和appearance information,作为similarity matrix for linear assignment in the first matching,用IoU distance in the next matching,然而,没有一个是similarity matrix的最好的expression.
当目标由于interlacing被遮挡的时候,会产生confusing sets,很难正确allocate,当分配这些confusing sets的时候,不正确的similarity distance 会导致tracking failture。主要造成matching failure的原因是inaccurate prediction from KF,随着target丢失时间变长。这会导致IoU distance和motion information distance不精确。导致linear allocation errors。为了解决这个问题,作者提出了EG matrix,利用embedding cosine distance用于long-range tracking of targets,Giou distance for limiting matching range of embedding。为了进一步探索EG matrix的property,作者提出了simple tracking framework,named SimpleTrack,这个框架中,作者设计了一个bottom-up branch来表示ReID features,不同于fusion method of detection features,它更关注high-level semantic layers,对于SimpleTrack的tracking part,作者提出了一个新的tracking retrieval 机制,基于EG matrix,设计了一个新的tracking strategy。
基于JDE的方法直接用single network来预测detection和appearance features,然而,detection和identification之间的竞争关系,在detection和appearance feature extraction的多任务学习中,损害优化过程。为了解决这个问题,CSTrack首先设计了一个decoupling module,为detection和appearance identification增强learnedd representation。RelationTrack用一个channel attention机制来解耦detection和ReID,不同于CSTrack和RelationTrack,SimpleTrack采用的解耦的方法聚焦于appearence feature的本质。从feature layer fusion开始decoupling,相比于detection feature fusion,采用bottom-up fusion方法。
location、motion、appearance 是MOT中最常用的cues。通常结合在一起用于linear assignment。基于Detection的方法用IoU distance作为similarity matrix,tracking的精度依赖于similarity matrix,SORT融合了position和motion cues作为similarity matrix,在short-range matching上实现了很好的结果。DeepSORT通过融合appearance cues和motion cues,提高了long-range tracking的能力。然而,作者设计了一个similarity matrix,结合了appearance 和location information,用Giou distance matrix作为location cue,而不是通常的IoU matrix。
tracking和detection的分配问题是通过匈牙利算法基于不同的similarity matrices解决的。SORT将detection objects和tracking objects通过一次matching进行关联。DeepSORT用了cascade matching。MOTDT首次使用了appearence similarity matrix和IoU distance matrix作为similarity matrix,用于cascade matching。
对于feature decoupling,对detection和ReID representation采用了不同的feature fusion,feature fusion方法仍然才有用FairMOT的结构。基于low-level feature maps和持续融合higher-level feature maps,称之为up-to-bottom fusion method. 然而,ReID features倾向于学习hight-level semantic features,来区分相同objects的different features,因此,作者采用一个bottom-up的方法来融合feature maps。Similarity matrix是这样的:
\[ EG = \lambda_1 E + \lambda_2 G \]
\(\lambda_1\)和\(\lambda_2\)分别为1和0.5
\(Fig.1^{[1]}\)
SimpleTrack的pipeline,输入的image通过backbone提取high-resolution
feature maps,然后对Detection和reid分别采取不同的fusion
方法,结合embedding 和Giou distance matrix作为similarity matrix