OWL-ViT
Simple Open-Vocabulary Object Detection with Vision Transformers[1]
作者是来自Google的Matthias Minderer, Alexey Gritsenko等人,论文引用[1]:Minderer, Matthias, et al. "Simple open-vocabulary object detection." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
Time
- 2022.Jun
Key Words
- open-vocabulary detection
总结
- 将简单的架构和大规模预训练结合起来,会导致图像分类上取得很大的提高。对于目标检测,预训练和scaling 方法还没有很好地建立,特别是长尾和开集,这些训练数据都很少。本文中,提出了一个很强的方法,将image-text 模型迁移到开集目标检测。用了一个标准的ViT架构和一些小的修改,contrastive image-text pre-training和端到端的detection fine-tunign。作者分析这个设置的scaling特性,展示了增加image-level的预训练和模型大小,能够对下游任务有持续的提高,作者提供了在零样本文本条件和单样本图像条件下的目标检测的适配策略和正则化方法。