RT-DETR
DETRs Beat YOLOs on Real-time Object Detection[1]
作者是来自北大和百度的Yian Zhao, Wenyu Lv等人。论文引用[1]:Lv, Wenyu et al. “DETRs Beat YOLOs on Real-time Object Detection.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 16965-16974.
Time
- 2024.Apr
Key Words
- hybrid encoder to process multi-scale features
- uncertainty-minimal query selection to provide high-quality initial queries to the decoder
- intra-scale interaction and cross-scale feature interaction
- 一句话来说:利用AAFI和CCFF重新设计了encoder,AAFI仅在最后一个feature map上进行 with single-scale transformer encoder,CCFF是基于cross-scale fusion做优化。然后,在Query 的选择上提出了Uncertainty-minimal Query Selection,就是尽可能选择包含前景语义的queries,加了一个包含localizatioin和classification的loss,来优化uncertainty。
动机
YOLO系列受到了NMS的影响,会降低推理速度。在不同的scenarios下,需要仔细地选择NMS的阈值。DETR不需要手工设计的components,没有NMS,但是计算成本高。因此,探索DETR能够做到实时是一个重要的方向。
总结
- YOLO系列变成了最流行的实施目标检测的框架因为trade-off between speed和accuracy。然而,观察到,YOLO的速度和精度收到了NMS的负面影响。端到端的DETR不需要NMS。然而,它的计算成本还是很高。这个不仅降低了推理的速度,也引入了超参数,造成速度和精度的不稳定。DETR去掉了手工设计的component,然而它的计算成本很高,很难做到实时。