openMixer
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection[1]
作者是来自密西根州立大学,NEC和罗格斯大学的Wentao Bao, Kai Li, Yuxiao Chen等人。论文引用[1]:Bao, Wentao et al. “Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection.” 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2024): 8291-8301.
Time
- 2024.Nov
Key Words
- vision-language models within the family of query-based DETR
- spatial and temporal OpenMixer Blocks
总结
- Action Detection旨在检测视频里的空间和时间上的动作,现有的方式聚焦于闭集检测,action detector是训练和测试都是在一个固定的行为类比的集合上。然而,这个限制的设定在一个开放的世界中不可行,测试的视频超过了训练的行为类别,本文中,解决这个挑战性的开集行为检测问题。旨在检测测试视频中的任意行为,然而在一个固定的行为类别上训练模型。为了实现这样一个开集的能力,提出了OpenMixer的方法,利用内在的语义和大的视觉语言模型的定位能力 within the family of query-based detection models(DETR)。特别地,OpenMixer是通过时空上的OpenMixer Blocks(S-OMB and T-OMB),一个动态的融合模块。这三个模块一起用来预训练VLMs的强大的表征能力和来自DETR设计的端到端的学习。更多的,在多个设定下,建立了OVAD benchmarks,实验结果表明,OpenMixer在检测见过和没见过的行为上,都超过了基线方法。