SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth[1]

作者是来自华科的Zelin Liu, Xinggang Wang等人。论文引用[1]:Liu, Zelin et al. “SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth.” ArXiv abs/2306.05238 (2023): n. pag.

Time

  • 2023.Nov

Key Words

  • sparse decomposition
  • a method for obtaining the relative depth of targets from 2D images: pseudo-depth
  • depth cascading matching(DCM)

总结

  1. 探索鲁棒的、高效的关联方法一直是MOT中重要的问题,尽管现有的跟踪方法实现了很好的性能,阻塞和频繁的遮挡仍然是MOT中挑战性的问题。作者表明了:在密集场景中进行sparse decomposition是增强关联遮挡目标的重要的步骤。为了这个目的,提出了一个pseudo-depth估计的方法,来得到2D图像中的targets的相对的深度。其次,设计了一个深度级联匹配算法,用得到的深度信息将dense target 多个稀疏 的target subsets,在这些稀疏的target subsets中进行数据关联,以从近到远的方式。SparseTrack提供了一个新的视角,用于解决MOT中挑战性的拥挤场景。只用IoU匹配,SparseTrack实现了很好的性能。

    阅读全文 »

Multi-Object Tracking Survey

来自论文:"Deep Learning in Video Multi-Object Tracking: A Survey", 作者是来自意大利和西班牙等院校的Gioele Ciaparrone等人。论文引用[1]:Ciaparrone, Gioele et al. “Deep learning in video multi-object tracking: A survey.” Neurocomputing 381 (2019): 61-88.

总结

  1. 多目标跟踪的问题是指在一个序列中跟踪不同目标的轨迹,通常是一个视频。近些年随着深度学习的兴起,算法从深度模型的表征能力中收益。本文提供了提供了用深度学习模型来解决MOT问题的全面的综述。

  2. MOT问题不同于目标检测(输出一系列的bounding box)。MOT算法还将target ID和每个box(detection)进行关联,为了区分类内的目标。单目标跟踪中,目标的外观是已知的先验,在MOT中,检测这一步对于识别targets是必须的,追踪多个目标的主要困难在于多样的阻塞和目标之间的交互,有时它们还有相似的背景。因此,将单目标跟踪应用于多目标跟踪会导致目标漂移和多个ID切换,这样的模型通常在区分相似目标和类内目标的时候有困难。专门针对多目标跟踪的一系列的算法被调整出来,用于解决这个问题,还有数据benchmarks和比赛,来方便不同方法的对比。 最近,很多的算法用深度学习来做,深度学习模型的长处在于学习丰富表征和提取特征。卷积神经网络长处在于空间模式提取,循环神经网络想LSTM用于处理时序数据。

阅读全文 »

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision[1]

作者是来自Google的Chao Jia, Yinfei Yang等人,论文引用[1]:Jia, Chao et al. “Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision.” International Conference on Machine Learning (2021).

Time

  • 2021.Jun

Key Words

总结

  1. 预训练表征对于很多NLP和感知任务很重要,当NLP中的表征学习不需要人类标注的时候,迁移到raw text上训练的时候,视觉和视觉语言表征仍然依然严重依赖于精心准备的训练集,这成本很高而且需要专家知识。对于视觉应用,通过很多有显示label的数据集例如ImageNet或者OpenImages来学习表征。对于视觉语言,流行的数据集例如Conceptual Captions, MSCOCO或者CLIP,都涉及non-trivial 数据收集的过程。这个费劲的精心挑选的过程限制了数据集的规模,阻碍了训练模型的scaling。在这篇文章中,作者利用一个超过十亿的图像文本对的有噪声的数据集,不需要费劲地过滤或者后处理步骤。一个简单地双编码器结构用对比损失,学习对齐图像文本对的视觉语言表征。 展示了语料库的规模可以弥补其噪声,即使一个简单的学习策略,就能实现SOTA的表征。作者的视觉表征当迁移到例如ImageNet这样的分类任务时,实现了强大的性能。对齐的视觉语言表征enable zero-shot的图像分类和在数据集Flickr30K上达到SOTA,即使和更复杂的交叉注意力的模型相比,这些表征使能用复杂的文本和图像文本queries实现跨模态的搜索。
阅读全文 »

Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection[1]

作者是来自密西根州立大学,NEC和罗格斯大学的Wentao Bao, Kai Li, Yuxiao Chen等人。论文引用[1]:

Time

  • 2024.Nov

Key Words

  • vision-language models within the family of query-based DETR
  • spatial and temporal OpenMixer Blocks

总结

  1. Action Detection旨在检测视频里的空间和时间上的动作,现有的方式聚焦于闭集检测,action detector是训练和测试都是在一个固定的行为类比的集合上。然而,这个限制的设定在一个开放的世界中不可行,测试的视频超过了训练的行为类别,本文中,解决这个挑战性的开集行为检测问题。旨在检测测试视频中的任意行为,然而在一个固定的行为类别上训练模型。为了实现这样一个开集的能力,提出了OpenMixer的方法,利用内在的语义和大的视觉语言模型的定位能力 within the family of query-based detection models(DETR)。特别地,OpenMixer是通过时空上的OpenMixer Blocks(S-OMB and T-OMB),一个动态的融合模块。这三个模块一起用来预训练VLMs的强大的表征能力和来自DETR设计的端到端的学习。更多的,在多个设定下,建立了OVAD benchmarks,实验结果表明,OpenMixer在检测见过和没见过的行为上,都超过了基线方法。
阅读全文 »

Open-Vocabulary Saptio-Temporal Action Detection[1]

作者是来自南大,南航和上海AI Lab的Tao Wu, Shuqiu Ge等人,论文引用[1]:Wu, Tao et al. “Open-Vocabulary Spatio-Temporal Action Detection.” ArXiv abs/2405.10832 (2024): n. pag.

Time

  • 2024.May

Key Words

  • video-language model

总结

  1. 时空行为检测是一个fine-grained 视频理解任务,当前的方法需要所有box和label的监督信息。然而,在真实世界中,很可能出现在训练集中没有出现过的行为类别,因为行为类别空间是大的,很难枚举。对于新的类别,模型训练和数据标注的成本很高,需要仔细的box标注,和从头训练网络。在本文中,通过进行开集STAD,提出了一个新的挑战性的设定,来更好的模拟开放世界中的行为检测。开集时空行为检测需要在有限行为类别和box 监督中训练模型,期望在新的类别上产生良好的泛化表现。对于开集时空行为检测,基于已有的STAD数据集,建立了两个benchmarks,提出了一个基于VLM的简单有效的方法,为了更好的将VLM适配fine-grained 行为检测任务,将其仔细地在localized video region-text pairs上进行微调。这定制化的fine-tuning使得VLM有更好的模型理解,导致video regions和texts有更精确地的对齐。在对齐之前的局部特征和全局视频特征融合is adopted ,通过提供全局上下文,来进一步提高行为检测能力。
阅读全文 »

WSL 安装

一些命令:

1
2
3
4
5
wsl --shutdown ##关闭所有正在运行的WSL
wsl --terminate <DistributionName> ##关闭指定的WSL
wsl --list --all ##查看所有WSL的详细信息
wsl -d <DistriubutionName> ##启动迁移后的发行版,确认它能正常运行
wsl --unregister <DistributionName> ##注销指定的WSL

阅读全文 »
0%