MOTRv3

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking[1]

作者是来自旷视等机构的En Yu等人, 论文引用[1]:Yu, En et al. “MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking.” ArXiv abs/2305.14298 (2023): n. pag.

Time

  • 2023.May

Key Words

  • conflict between detection and association
  • detect query only for newly appearing targets
  • track queries for localizing previous detected targets(association part in a implicit manner)

总结

  1. 简单来说,MOTR的问题是在于detection和association之间的冲突,MOTRv2用额外的detection network部分解决了这个问题,作者将这个conflict的归因于detect queries和track queries在训练的时候的unfair label assignment,detect queries 识别targets然后track queries associate them。基于这个观察,作者提出了MOTRv3,用release-fetch supervision 策略来平衡label assignment process。在这个策略中,labels首先released for detection,然后逐渐fetched back for association。另外两个strategy叫做pseudo label distillation和track group denoising,用来进一步提高detection和association的supervision,同时不需要额外的detection network
  1. detect query用来定位target,基于这个detect query产生track query。产生的track query用于在following frames中连续detecting this target。也就是说, detect queries用来detect 新出现的targets,track queries以一种implicit的方式进行association。尽管MOTR的架构是elegant的,它存在detection和association之间优化冲突的问题,导致poor detection precision。MOTRv2用一个独立的detector例如YOLOX来detect targets,提供detection results to tracking network。然后,tracking network聚焦于association,缓解了conflict。但是MOTRv2需要一个well-trained detector,使得训练过程不是端到端的。

  2. 在训练中,如果一个target出现在多个frames中,只有第一个box 会被用来训练detection part,剩下会有来训练track queries,这个问题导致MOTR的detection的部分是没有充分训练的。为了解决这个问题,作者提出了Release-Fetch Supervision,首先releases box labels用来训练MOTR detection part,然后,自动地fetches 这些labels来训练association part。特别地,在这个strategy中,MOTR中的oen-to-one matching的detection part是在all box labels和all queries之间进行的in the first 5 decoder,只有matching strategy of the last decoder是没有变的。这种方式下,MOTR的detection part不需要更改e2e的机制,就能够得到充足的supervision。 另外两个策略称之为pseudo label distillation(PLD)和track group denoising(TGD)。PLD用之前训练好的YOLOX 或者Sparse RCNN来产生pseudo labels,对MOTR增加了额外的supervision。pre-trained detector提供的pseudo labels的分布是diverse的,因此,MOTR的detection part得到了充足的训练。TGD将track queries增加到了多个groups,然后每个group包含了相同数量的track queries,和originals是一样的。对每个track group的reference points在训练期间增加了随机的噪声,TGD稳定了MOTR的association part的训练,提高了整体的tracking performance