YOLO-World
YOLO-World: Real-Time Open-Vocabulary Object Detection[1]
作者是来自华科和腾讯的Tianheng Cheng, Lin Song等人,论文引用[1]:Cheng, Tianheng et al. “YOLO-World: Real-Time Open-Vocabulary Object Detection.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024): 16901-16911.
Time
- 2024.Feb
Key Words
总结
- YOLO系列的检测器已经是高效和实际的工具了,然而,它们依赖于预先定义和训练的目标类别限制了它们在开集上的应用。为了解决这个问题,引入了YOLO-World。一个新的方式,通过VLM增强了YOLO开集检测的能力,特别地,提出了一个新的重新参数化的视觉语言Path Aggregation Network(RepVL-PAN),和region-text对比损失,来促进视觉和语言信息的interaction,方法能够以zero-shot的方式,检测非常广范围的目标。在LVIS数据集上,YOLO-World实现了35.4AP,实现了很好的速度和精度平衡。