Deformable-DETR
Deformable DETR: Deformable Transformers for End-to-End Object Detection[1]
作者是来自商汤、中科大和CUHK的Xizhou Zhou, Weijie Su, Lewei Lu 等人,论文引用[1]:Zhu, Xizhou et al. “Deformable DETR: Deformable Transformers for End-to-End Object Detection.” ArXiv abs/2010.04159 (2020): n. pag.
Time
- 2021.Mar
Key Words
- deformable attention module aggregates multi-scale feature maps via attention mechanism
- 一句话来说:Deformable DETR的核心是Deformable attention,用query + pos 生成 offset,sample locations 等于reference points + offset,然后对query做Linear得到Attention weight,对feature map做Linear得到value,然后用sample locations去取对应位置的value,将attention weight 乘以sampling value,然后将各个head的输出进行拼接,再经过Linear,得到最终的输出。
动机
- DETR收敛慢
- DETR检测小目标的性能比较低
总结
- DETR在目标检测中,用来去掉很多人工设计的components,同时也有很好的性能。然而,它收敛比较慢,由于Attention在处理图像特征中的限制,特征的spatial resolution有限。为了缓解这些问题,提出了Deformable DETR,这个attention只对一个referrence附近的ke sampling points进行attend,Deformable DETR能够实现很好的性能,超越了DETR(特别是小目标)。