Mr.DETR
Mr.DETR: Instructive Multi-Route Training for Detection Transformers[1]>
作者是来自Visual AI Lab、HKU和Meituan的Chang-Bin Zhang等人。论文引用[1]:Zhang, Chang-Bin et al. “Mr. DETR: Instructive Multi-Route Training for Detection Transformers.” ArXiv abs/2412.10028 (2024): n. pag.
Time
- 2025.Apr
Key Words
- one-to-one, one-to-many assignments
- Multi-route training
- 一句话总结:为了加速DETR-like model的收敛,一些方法采用了auxiliary training,作者这里提出了multi-training route的方法,用3个route,route-1用一个独立的FFN for o2m, route-2是primary route for o2o, route-3 为了提高不同route的queries的兼容性,采用了learnable queries作为instruction,然后进行instruction self-attention,其它的没啥。
总结
- 现有的增强detection transformer的方式是同故宫引入auxiliary one-to-many assignment。在这个工作中,作者将model视为一个multi-task framework,同时进行one-to-one和one-to-many predictions。作者在这两个训练目标中,研究了Transformer decoder中的每个component的作用,包括self-attention, cross-attention和FFN。作者的结果展示,decoder中的任何独立的component能够同时有效地学习targets,即使当一些component是共享的。这个发现促使作者提出了一个multi-route training paradigm, 一个primary route用于one-to-one prediction,两个辅助的training routes用于one-to-many prediction,作者通过一个新的instructive self-attention, 能够动态地和灵活地指导object queries 用于one-to-many prediction,增强training机制。这个辅助的routes在推理的时候是去掉的,确保对model架构和inference cost造成影响。