Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection[1]

作者是来自密西根州立大学,NEC和罗格斯大学的Wentao Bao, Kai Li, Yuxiao Chen等人。论文引用[1]:Bao, Wentao et al. “Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection.” 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2024): 8291-8301.

Time

  • 2024.Nov

Key Words

  • vision-language models within the family of query-based DETR
  • spatial and temporal OpenMixer Blocks

总结

  1. Action Detection旨在检测视频里的空间和时间上的动作,现有的方式聚焦于闭集检测,action detector是训练和测试都是在一个固定的行为类比的集合上。然而,这个限制的设定在一个开放的世界中不可行,测试的视频超过了训练的行为类别,本文中,解决这个挑战性的开集行为检测问题。旨在检测测试视频中的任意行为,然而在一个固定的行为类别上训练模型。为了实现这样一个开集的能力,提出了OpenMixer的方法,利用内在的语义和大的视觉语言模型的定位能力 within the family of query-based detection models(DETR)。特别地,OpenMixer是通过时空上的OpenMixer Blocks(S-OMB and T-OMB),一个动态的融合模块。这三个模块一起用来预训练VLMs的强大的表征能力和来自DETR设计的端到端的学习。更多的,在多个设定下,建立了OVAD benchmarks,实验结果表明,OpenMixer在检测见过和没见过的行为上,都超过了基线方法。
阅读全文 »

Open-Vocabulary Saptio-Temporal Action Detection[1]

作者是来自南大,南航和上海AI Lab的Tao Wu, Shuqiu Ge等人,论文引用[1]:Wu, Tao et al. “Open-Vocabulary Spatio-Temporal Action Detection.” ArXiv abs/2405.10832 (2024): n. pag.

Time

  • 2024.May

Key Words

  • video-language model

总结

  1. 时空行为检测是一个fine-grained 视频理解任务,当前的方法需要所有box和label的监督信息。然而,在真实世界中,很可能出现在训练集中没有出现过的行为类别,因为行为类别空间是大的,很难枚举。对于新的类别,模型训练和数据标注的成本很高,需要仔细的box标注,和从头训练网络。在本文中,通过进行开集STAD,提出了一个新的挑战性的设定,来更好的模拟开放世界中的行为检测。开集时空行为检测需要在有限行为类别和box 监督中训练模型,期望在新的类别上产生良好的泛化表现。对于开集时空行为检测,基于已有的STAD数据集,建立了两个benchmarks,提出了一个基于VLM的简单有效的方法,为了更好的将VLM适配fine-grained 行为检测任务,将其仔细地在localized video region-text pairs上进行微调。这定制化的fine-tuning使得VLM有更好的模型理解,导致video regions和texts有更精确地的对齐。在对齐之前的局部特征和全局视频特征融合is adopted ,通过提供全局上下文,来进一步提高行为检测能力。
阅读全文 »

WSL 安装

一些命令:

1
2
3
4
5
wsl --shutdown ##关闭所有正在运行的WSL
wsl --terminate <DistributionName> ##关闭指定的WSL
wsl --list --all ##查看所有WSL的详细信息
wsl -d <DistriubutionName> ##启动迁移后的发行版,确认它能正常运行
wsl --unregister <DistributionName> ##注销指定的WSL

阅读全文 »

YOLO-World: Real-Time Open-Vocabulary Object Detection[1]

作者是来自华科和腾讯的Tianheng Cheng, Lin Song等人,论文引用[1]:Cheng, Tianheng et al. “YOLO-World: Real-Time Open-Vocabulary Object Detection.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024): 16901-16911.

Time

  • 2024.Feb

Key Words

总结

  1. YOLO系列的检测器已经是高效和实际的工具了,然而,它们依赖于预先定义和训练的目标类别限制了它们在开集上的应用。为了解决这个问题,引入了YOLO-World。一个新的方式,通过VLM增强了YOLO开集检测的能力,特别地,提出了一个新的重新参数化的视觉语言Path Aggregation Network(RepVL-PAN),和region-text对比损失,来促进视觉和语言信息的interaction,方法能够以zero-shot的方式,检测非常广范围的目标。在LVIS数据集上,YOLO-World实现了35.4AP,实现了很好的速度和精度平衡。
阅读全文 »

Simple Open-Vocabulary Object Detection with Vision Transformers[1]

作者是来自Google的Matthias Minderer, Alexey Gritsenko等人,论文引用[1]:Minderer, Matthias, et al. "Simple open-vocabulary object detection." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

Time

  • 2022.Jun

Key Words

  • open-vocabulary detection

总结

  1. 将简单的架构和大规模预训练结合起来,会导致图像分类上取得很大的提高。对于目标检测,预训练和scaling 方法还没有很好地建立,特别是长尾和开集,这些训练数据都很少。本文中,提出了一个很强的方法,将image-text 模型迁移到开集目标检测。用了一个标准的ViT架构和一些小的修改,contrastive image-text pre-training和端到端的detection fine-tunign。作者分析这个设置的scaling特性,展示了增加image-level的预训练和模型大小,能够对下游任务有持续的提高,作者提供了在零样本文本条件和单样本图像条件下的目标检测的适配策略和正则化方法。
阅读全文 »

DETRs with Collaborative Hybrid Assignments Training[1]

作者是来自商汤的Zhuofan Zong,Guanglu Song和Yu Liu,论文引用[1]:Zong, Zhuofan et al. “DETRs with Collaborative Hybrid Assignments Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 6725-6735.

Time

  • 2023.Aug

Key Words

  • one-to-many label assignment

总结

  1. 在本文中,作者观察到,太少的queries作为positive samples in DETR with one-to-one set matching 会导致sparse supervision on the encoder's output, 回影响encoer的discriminative feature learning。为了缓解这个问题,提出了一个新的collaborative hybrid assignments training scheme, 称之为Co-DETR,从versatile label assignment manners学习更有效的基于DETR的检测器。这个新的训练策略能够通过训练multiple parallel auxiliary heads supervised by one-to-many label assigments such as ATSS and FasterRCNN,简单地增强encdoer的学习能力。另外,通过其它auxiliary heads中的positive coordinates,执行extra customized positive queries,来提高decoder中的positive samples的训练效率。推理的时候,这些auxiliary heads被丢弃了,因此这个方法没有引入额外的参数和计算开销,不需要NMS。
阅读全文 »

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization[1]

作者是来自英国玛丽女王大学、三星剑桥AI center等机构的Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos。论文引用[1]:Ntinou, Ioanna, Enrique Sanchez, and Georgios Tzimiropoulos. "Multiscale vision transformers meet bipartite matching for efficient single-stage action localization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

Time

  • 2024.May

Key Words

  • bipartite matching loss
  • Video Transformer with bipartite matching loss without learnable queries and decoder

总结

  1. Action localization是一个挑战行的问题,结合了检测和识别,通常是分开处理的,SOTA方法都是依赖off-the-shelf bboxes detection,然后用transformer model来聚焦于classification task。 这样的两阶段的方法不利于实时的部署。另外,单节段的方法通过共享大部分的负载来实现这两个任务,牺牲性能换取速度。类似DETR的架构训练起来有挑战。本文观察到:一个直接的bipartite matching loss可以用在ViT的output tokens上,导致一个 backbone + MLP 架构能够需要要额外的encoder-decoder head和learnable queries来同时处理这两个任务。用单一的MViTv2-S架构 with bipartite matching 来执行两个tasks,超过了MViTv2-S trained with RoI align on pre-computed bboxes。用设计的token pooling和提出的训练的pipeline,Bipartite-Matching Vision Transformer, BMViT。实现了很好的结果。
阅读全文 »

MRSN: Multi-Relation Support Network for Video Action Detection[1]

作者是来自南大的YinDong Zheng, Guo Chen, Minglei Yuan等。论文引用[1]:

Time

  • 2023.Apr

Key Words

总结

End-to-End Spatio-Temporal Action Localisation with Video Transformers[1]

作者是来自google的Alexey Gritsenko, Xuehan Xiong等人,论文引用[1]:Gritsenko, Alexey A. et al. “End-to-End Spatio-Temporal Action Localisation with Video Transformers.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 18373-18383.

Time

  • 2023.Apr

Key Words

  • without resorting to external proposals or memory banks
  • directly predicts tubelets even do not have full tubelet annotations

总结

  1. 最好的时空行为检测使用额外的person proposals和复杂的external memory banks。作者提出了一个端到端的、纯transformer的模型,能够直接输入一个视频,输出tubelets(一系列的bboxes和action classes at each frame). 这个灵活的模型能够用稀疏的bbox supervision on individual frames or full tubelet annotations。在这两种情况下,预测连贯的tubelet作为输出。另外,这个模型不需要额外的对proposals的前处理或者NMS这样的后处理。
阅读全文 »
0%