DetCLIP
F-VLM
openMixer
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection[1]
作者是来自密西根州立大学,NEC和罗格斯大学的Wentao Bao, Kai Li, Yuxiao Chen等人。论文引用[1]:
Time
- 2024.Nov
Key Words
- vision-language models within the family of query-based DETR
- spatial and temporal OpenMixer Blocks
总结
- Action Detection旨在检测视频里的空间和时间上的动作,现有的方式聚焦于闭集检测,action detector是训练和测试都是在一个固定的行为类比的集合上。然而,这个限制的设定在一个开放的世界中不可行,测试的视频超过了训练的行为类别,本文中,解决这个挑战性的开集行为检测问题。旨在检测测试视频中的任意行为,然而在一个固定的行为类别上训练模型。为了实现这样一个开集的能力,提出了OpenMixer的方法,利用内在的语义和大的视觉语言模型的定位能力 within the family of query-based detection models(DETR)。特别地,OpenMixer是通过时空上的OpenMixer Blocks(S-OMB and T-OMB),一个动态的融合模块。这三个模块一起用来预训练VLMs的强大的表征能力和来自DETR设计的端到端的学习。更多的,在多个设定下,建立了OVAD benchmarks,实验结果表明,OpenMixer在检测见过和没见过的行为上,都超过了基线方法。
OV-STAD
Open-Vocabulary Saptio-Temporal Action Detection[1]
作者是来自南大,南航和上海AI Lab的Tao Wu, Shuqiu Ge等人,论文引用[1]:Wu, Tao et al. “Open-Vocabulary Spatio-Temporal Action Detection.” ArXiv abs/2405.10832 (2024): n. pag.
Time
- 2024.May
Key Words
- VLMs
总结
- 时空行为检测是一个fine-grained 视频理解任务,当前的方法需要所有box和label的监督信息。然而,在真实世界中,很可能出现在训练集中没有出现过的行为类别,因为行为类别空间是大的,很难枚举。对于新的类别,模型训练和数据标注的成本很高,需要仔细的box标注,和从头训练网络。在本文中,通过进行开集STAD,提出了一个新的挑战性的设定,来更好的模拟开放世界中的行为检测。开集时空行为检测需要在有限行为类别和box 监督中训练模型,期望在新的类别上产生良好的泛化表现。对于开集时空行为检测,基于已有的STAD数据集,建立了两个benchmarks,提出了一个基于VLM的简单有效的方法,为了更好的将VLM适配fine-grained 行为检测任务,将其仔细地在localized video region-text pairs上进行微调。这定制化的fine-tuning使得VLM有更好的模型理解,导致video regions和texts有更精确地的对齐。在对齐之前的局部特征和全局视频特征融合is adopted ,通过提供全局上下文,来进一步提高行为检测能力。
openmax
WSL-installation
WSL 安装
一些命令: 1
2
3
4
5wsl --shutdown ##关闭所有正在运行的WSL
wsl --terminate <DistributionName> ##关闭指定的WSL
wsl --list --all ##查看所有WSL的详细信息
wsl -d <DistriubutionName> ##启动迁移后的发行版,确认它能正常运行
wsl --unregister <DistributionName> ##注销指定的WSL
YOLO-World
YOLO-World: Real-Time Open-Vocabulary Object Detection[1]
作者是来自华科和腾讯的Tianheng Cheng, Lin Song等人,论文引用[1]:Cheng, Tianheng et al. “YOLO-World: Real-Time Open-Vocabulary Object Detection.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024): 16901-16911.
Time
- 2024.Feb
Key Words
总结
- YOLO系列的检测器已经是高效和实际的工具了,然而,它们依赖于预先定义和训练的目标类别限制了它们在开集上的应用。为了解决这个问题,引入了YOLO-World。一个新的方式,通过VLM增强了YOLO开集检测的能力,特别地,提出了一个新的重新参数化的视觉语言Path Aggregation Network(RepVL-PAN),和region-text对比损失,来促进视觉和语言信息的interaction,方法能够以zero-shot的方式,检测非常广范围的目标。在LVIS数据集上,YOLO-World实现了35.4AP,实现了很好的速度和精度平衡。
OWL-ViT
Simple Open-Vocabulary Object Detection with Vision Transformers[1]
作者是来自Google的Matthias Minderer, Alexey Gritsenko等人,论文引用[1]:Minderer, Matthias, et al. "Simple open-vocabulary object detection." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
Time
- 2022.Jun
Key Words
- open-vocabulary detection
总结
- 将简单的架构和大规模预训练结合起来,会导致图像分类上取得很大的提高。对于目标检测,预训练和scaling 方法还没有很好地建立,特别是长尾和开集,这些训练数据都很少。本文中,提出了一个很强的方法,将image-text 模型迁移到开集目标检测。用了一个标准的ViT架构和一些小的修改,contrastive image-text pre-training和端到端的detection fine-tunign。作者分析这个设置的scaling特性,展示了增加image-level的预训练和模型大小,能够对下游任务有持续的提高,作者提供了在零样本文本条件和单样本图像条件下的目标检测的适配策略和正则化方法。
Co-DETR
DETRs with Collaborative Hybrid Assignments Training[1]
作者是来自商汤的Zhuofan Zong,Guanglu Song和Yu Liu,论文引用[1]:Zong, Zhuofan et al. “DETRs with Collaborative Hybrid Assignments Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 6725-6735.
Time
- 2023.Aug
Key Words
- one-to-many label assignment
总结
- 在本文中,作者观察到,太少的queries作为positive samples in DETR with one-to-one set matching 会导致sparse supervision on the encoder's output, 回影响encoer的discriminative feature learning。为了缓解这个问题,提出了一个新的collaborative hybrid assignments training scheme, 称之为Co-DETR,从versatile label assignment manners学习更有效的基于DETR的检测器。这个新的训练策略能够通过训练multiple parallel auxiliary heads supervised by one-to-many label assigments such as ATSS and FasterRCNN,简单地增强encdoer的学习能力。另外,通过其它auxiliary heads中的positive coordinates,执行extra customized positive queries,来提高decoder中的positive samples的训练效率。推理的时候,这些auxiliary heads被丢弃了,因此这个方法没有引入额外的参数和计算开销,不需要NMS。