LW-DETR
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection[1]
作者是来自百度、阿德莱德大学、北航、自动化所和澳洲国立大学的Qiang Chen,Xiangbo Su, Xinyu Zhang等人。论文引用[1]:
Key Words
- Real-Time Detection With Transformer
- interleaved window and global attention
- window-major order feature map organization
Time
- 2024.Jun
总结
- 作者提出了一个light-weight transformer, LW-DETR,在实时检测上超过了YOLOs,这个架构是简单地ViT encoder、projector、和一个浅的DETR decoder的堆叠。这个方法利用了最近的技术包括training-effective techniques:improved loss和预训练,interleaved window 和global attention用来减小ViT encoder的复杂度。通过汇聚多个level的feature maps、intermediate 和final feature mapss来提高ViT encoder,形成更丰富的特征图,引入window-major feature map,来提高interleaved attention计算的效率。结果展示提出的方法超过了现有的检测器,包括YOLO和它的变体。