Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision[1]

作者是来自Google的Chao Jia, Yinfei Yang等人,论文引用[1]:Jia, Chao et al. “Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision.” International Conference on Machine Learning (2021).

Time

  • 2021.Jun

Key Words

总结

  1. 预训练表征对于很多NLP和感知任务很重要,当NLP中的表征学习不需要人类标注的时候,迁移到raw text上训练的时候,视觉和视觉语言表征仍然依然严重依赖于精心准备的训练集,这成本很高而且需要专家知识。对于视觉应用,通过很多有显示label的数据集例如ImageNet或者OpenImages来学习表征。对于视觉语言,流行的数据集例如Conceptual Captions, MSCOCO或者CLIP,都涉及non-trivial 数据收集的过程。这个费劲的精心挑选的过程限制了数据集的规模,阻碍了训练模型的scaling。在这篇文章中,作者利用一个超过十亿的图像文本对的有噪声的数据集,不需要费劲地过滤或者后处理步骤。一个简单地双编码器结构用对比损失,学习对齐图像文本对的视觉语言表征。 展示了语料库的规模可以弥补其噪声,即使一个简单的学习策略,就能实现SOTA的表征。作者的视觉表征当迁移到例如ImageNet这样的分类任务时,实现了强大的性能。对齐的视觉语言表征enable zero-shot的图像分类和在数据集Flickr30K上达到SOTA,即使和更复杂的交叉注意力的模型相比,这些表征使能用复杂的文本和图像文本queries实现跨模态的搜索。
阅读全文 »

Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection[1]

作者是来自密西根州立大学,NEC和罗格斯大学的Wentao Bao, Kai Li, Yuxiao Chen等人。论文引用[1]:

Time

  • 2024.Nov

Key Words

  • vision-language models within the family of query-based DETR
  • spatial and temporal OpenMixer Blocks

总结

  1. Action Detection旨在检测视频里的空间和时间上的动作,现有的方式聚焦于闭集检测,action detector是训练和测试都是在一个固定的行为类比的集合上。然而,这个限制的设定在一个开放的世界中不可行,测试的视频超过了训练的行为类别,本文中,解决这个挑战性的开集行为检测问题。旨在检测测试视频中的任意行为,然而在一个固定的行为类别上训练模型。为了实现这样一个开集的能力,提出了OpenMixer的方法,利用内在的语义和大的视觉语言模型的定位能力 within the family of query-based detection models(DETR)。特别地,OpenMixer是通过时空上的OpenMixer Blocks(S-OMB and T-OMB),一个动态的融合模块。这三个模块一起用来预训练VLMs的强大的表征能力和来自DETR设计的端到端的学习。更多的,在多个设定下,建立了OVAD benchmarks,实验结果表明,OpenMixer在检测见过和没见过的行为上,都超过了基线方法。
阅读全文 »

Open-Vocabulary Saptio-Temporal Action Detection[1]

作者是来自南大,南航和上海AI Lab的Tao Wu, Shuqiu Ge等人,论文引用[1]:Wu, Tao et al. “Open-Vocabulary Spatio-Temporal Action Detection.” ArXiv abs/2405.10832 (2024): n. pag.

Time

  • 2024.May

Key Words

  • video-language model

总结

  1. 时空行为检测是一个fine-grained 视频理解任务,当前的方法需要所有box和label的监督信息。然而,在真实世界中,很可能出现在训练集中没有出现过的行为类别,因为行为类别空间是大的,很难枚举。对于新的类别,模型训练和数据标注的成本很高,需要仔细的box标注,和从头训练网络。在本文中,通过进行开集STAD,提出了一个新的挑战性的设定,来更好的模拟开放世界中的行为检测。开集时空行为检测需要在有限行为类别和box 监督中训练模型,期望在新的类别上产生良好的泛化表现。对于开集时空行为检测,基于已有的STAD数据集,建立了两个benchmarks,提出了一个基于VLM的简单有效的方法,为了更好的将VLM适配fine-grained 行为检测任务,将其仔细地在localized video region-text pairs上进行微调。这定制化的fine-tuning使得VLM有更好的模型理解,导致video regions和texts有更精确地的对齐。在对齐之前的局部特征和全局视频特征融合is adopted ,通过提供全局上下文,来进一步提高行为检测能力。
阅读全文 »

WSL 安装

一些命令:

1
2
3
4
5
wsl --shutdown ##关闭所有正在运行的WSL
wsl --terminate <DistributionName> ##关闭指定的WSL
wsl --list --all ##查看所有WSL的详细信息
wsl -d <DistriubutionName> ##启动迁移后的发行版,确认它能正常运行
wsl --unregister <DistributionName> ##注销指定的WSL

阅读全文 »

YOLO-World: Real-Time Open-Vocabulary Object Detection[1]

作者是来自华科和腾讯的Tianheng Cheng, Lin Song等人,论文引用[1]:Cheng, Tianheng et al. “YOLO-World: Real-Time Open-Vocabulary Object Detection.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024): 16901-16911.

Time

  • 2024.Feb

Key Words

总结

  1. YOLO系列的检测器已经是高效和实际的工具了,然而,它们依赖于预先定义和训练的目标类别限制了它们在开集上的应用。为了解决这个问题,引入了YOLO-World。一个新的方式,通过VLM增强了YOLO开集检测的能力,特别地,提出了一个新的重新参数化的视觉语言Path Aggregation Network(RepVL-PAN),和region-text对比损失,来促进视觉和语言信息的interaction,方法能够以zero-shot的方式,检测非常广范围的目标。在LVIS数据集上,YOLO-World实现了35.4AP,实现了很好的速度和精度平衡。
阅读全文 »

Simple Open-Vocabulary Object Detection with Vision Transformers[1]

作者是来自Google的Matthias Minderer, Alexey Gritsenko等人,论文引用[1]:Minderer, Matthias, et al. "Simple open-vocabulary object detection." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

Time

  • 2022.Jun

Key Words

  • open-vocabulary detection

总结

  1. 将简单的架构和大规模预训练结合起来,会导致图像分类上取得很大的提高。对于目标检测,预训练和scaling 方法还没有很好地建立,特别是长尾和开集,这些训练数据都很少。本文中,提出了一个很强的方法,将image-text 模型迁移到开集目标检测。用了一个标准的ViT架构和一些小的修改,contrastive image-text pre-training和端到端的detection fine-tunign。作者分析这个设置的scaling特性,展示了增加image-level的预训练和模型大小,能够对下游任务有持续的提高,作者提供了在零样本文本条件和单样本图像条件下的目标检测的适配策略和正则化方法。
阅读全文 »
0%