YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition[1]

作者是Nguyen Dang Duc Manh, Duong Viet Hang等人。论文引用[1]:Dang, Duc M et al. “YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition.” (2024).

Time

  • 2024.Aug

Key Words

  • one-stage detector
  • different configurations to customie different model components
  • efficient while reducing computational resource requirements

总结

  1. YOWOv3是YOWOv2的增强版,提供了更多的approach,用了不同的configurations来定制不同的model,YOWOv3比YOWOv2更好。
  2. STAD是计算机视觉中一个常见的任务,涉及到检测location(bbox), timing(exact frame),and type(class of action), 需要对时间和空间特征进行建模。有很多的方法来解决STAD的问题,例如ViT,ViT的效果很好,但是计算量比较大。例如Hiera model由超过600M的参数,VideoMAEv2由超过1B的参数,增加了训练的成本和消耗。为了解决STAD问题,同时最大程度减弱训练和推理时间的成本,有人提出用了YOWO方法,虽然可以做到实时,但是也有限制:不是一个efficient model with low computational requirements。框架的作者已经停止维护了,但是还有很多的问题。本文的contribution如下:
    • new lightweight framework for STAD
    • efficient model
    • multiple pretrained resources for application:creating a range of pretrained resources spanning from lightweight to sophisticated models to cater to diverse requirements for real-world applications。
阅读全文 »

YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time STAD[1]

作者是来自哈工大的 Jianhuan Yang和Kun Dai,论文引用[1]:Yang, Jianhua and Kun Dai. “YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection.” ArXiv abs/2302.06848 (2023): n. pag.

Time

  • 2023.Feb

Key Words

  • combined 2D CNN of diffferent size with 3D CNN
  • anchor-free mechanism
  • dynamic label assignment
  • multi-level detection structure

总结

  1. YOWOv2利用了3D backbone和2D backbone的优势,来做accurate action detection。设计了一个multi-level detection pipeline来检测不同scales的action instances。为了实现这个目标,构建了一个 简单高效地2D backbone with FPN,来提取不同level的classification features和regression features。对于 3D backbone,采用现有的3D CNN,通过结合3D CNN和不同size的2D CNN,设计了YOWOv2 family, 包括:YOWOv2-Tiny,YOWOv2-Medium和YOWOv2-Large。同时引入了dynamic label assignment strategyanchor-free机制,来使得YOWOv2和先进的模型架构一致。YOWOv2比YOWO好很多,同时能够保证实时检测。
阅读全文 »

Spatio-Temporal Action Detection Under Large Motion[1]

作者是来自ETHZ的Gurkirt Singh, Vasileios Choutas, Suman Saha, Fisher Yu和Luc Van Gool。论文引用[1]:Singh, Gurkirt et al. “Spatio-Temporal Action Detection Under Large Motion.” 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2022): 5998-6007.

Time

  • 2022.Oct

Key Words

  • track information for feature aggregation rather than tube from proposals
  • 3 motion categories: large motion、medium motion、small motion

总结

  1. 当前的STAD的tube detection的方法经常将一个给定的keyframe上的bbox proposal扩展成一个3D temporal cuboid,然后从邻近帧进行pool features。如果actor的位置或者shape表现出了large 2D motion和variability through frames,这样的pooling不能够积累有意义的spaito-temporal features。在这个工作中,作者旨在研究cuboid-aware feature aggregation in action detection under large action。进一步,提出了在large motion的情况下,通过tracking actors和进行temporal feature aggregation along the respective tracks增强actor feature representation,定义了在不同的固定的time scales下的actor motion的IoU。有large motion的action会随着时间导致lower IoU,slower actions会随着时间维持higher IoU。作者发现track-aware feature aggregation持续地实现了很大的提升in action detection
阅读全文 »

TubeR: Tubelet Transformer for Video Action Detection[1]

作者是来自阿姆斯特丹大学、罗格斯大学和AWS AI Labs的Jiaojiao Zhao、Yanyi Zhang等人。论文引用[1]:Zhao, Jiaojiao et al. “TubeR: Tubelet Transformer for Video Action Detection.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 13588-13597.

Time

  • 2021.April

Key Words

  • learns a set of tubelet queries to pull action-specific tubelet-level features from a spatio-temporal video representation
  • spatial and temporal tubelet attention allows tubelets to be unrestricted in spatial location and scale over time
  • context aware classification head along with tubelet feature, takes the full clip feature from which our classification head can draw contextual information.
  • end-to-end without person detectors, anchors or proposals.

总结

  1. 不同于现有的依赖于离线检测器或者人工设计的actor-positional hypotheses like proposals or anchors,提出了一个通过同时进行action localization和recognition from a single representation,直接检测视频里的action tubelet的方法。TubeR学习一系列的tubelet queries,利用tubelet-attention module来model video clip里的动态的spatio-tempral nature。相比于用actor-positional hypotheses in the spatio-temporal space,它能够有效的强化模型的能力。对于包含transitional states或者scene changes的视频,提出了一个context aware classification head,来利用short-term和long-term context to strengthen action classification,和一个action switch regression head 来检测精确的时序上的行为范围。TubeR直接产生不同长度的action tubelets,对于长的视频clips,也能保持一个比较好的结果。
阅读全文 »

Efficient Video Action Detection with Token Dropout and Context Refinement[1]

作者是来自nju、蚂蚁集团、复旦和上海AI Lab的Lei Chen、Zhan Tong、Yibing Song等人。论文引用[1]:Chen, Lei et al. “Efficient Video Action Detection with Token Dropout and Context Refinement.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 10354-10365.

Time

  • 2023.Aug

Key Words

  • spatiotemporal token dropout
  • maintain all tokens in keyframe representing scene context
  • select tokens from other frames representing actor motions
  • drop out irrelavant tokens.

总结

  1. 视频流clips with large-scale vieo tokens 阻止了ViTs for efficient recognition,特别是在video action detection领域,这是需要大量的时空representations来精确地actor identification。这篇工作,提出了端到端的框架 for efficient video action detection(EVAD) based on vanilla ViTs。EVAD包含两个为视频行为检测的特殊设计。首先:提出来时空token dropout from a keyframe-centric perspective. 在一个video clip中,main all tokens from its keyframe,保留其它帧中和actor motions相关的tokens。第二:通过利用剩余的tokens,refine scene context for better recognizing actor identities。action detector中的RoI扩展到时间域。获得的时空actor identity representations are refined via scene context in a decoder with the attention mechanism。这两个设计使得EVAD高效的同时保持精度。
阅读全文 »

You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization[1]

作者是来自Technical Univ of Munich的Okan Kopuklu, Xiangyu Wei, Gerhard Rigoll。论文引用[1]:Köpüklü, Okan et al. “You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization.” ArXiv abs/1911.06644 (2019): n. pag.

Time

  • 2019.Nov.15(v1)
  • 2021.Oct.18(v5)

Key Words

  • single-stage with two branches

总结

  1. 当前的网络抽取时序信息和keyframe的空间信息是用两个分开的网络,然后用一个额外的mechanism来融合得到detections。YOWO是一个单阶段的架构,有两个分支,来同时抽取当前的时序和空间信息,预测bboxes和action 的概率 directly from video clips in one evaluation。因为架构是统一的,因此可以端到端的优化。YOWO架构速度快,能够做到在16-frames input clips上做到 34 frames-per-second,62 frames-per-second on 8-frames input clips。是当前在STAD任务上最快的架构。
阅读全文 »

Holistic Interaction Transformer Network for Action Detection[1]

作者是来自国立清华大学和微软AI的Gueter Josmy Faure, Min-Hung Chen和Shang-Hong Lai.论文引用[1]:Faure, Gueter Josmy et al. “Holistic Interaction Transformer Network for Action Detection.” 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2022): 3329-3339.

Time

  • 2022.Nov.18

Key Words

  • bi-modal structure
  • combine different interactions

总结

  1. 行为是关于我们如何与环境互动的,包括其他人、物体和我们自己。作者提出了一个新的多模态的Holistic Interaction Transformer Network (HIT),利用大量被忽略的、但是对人类行为重要的手部和姿态信息。HIT网络是一个全面的bi-modal框架,由一个RGB stream和pose stream组成。每个stream独立地建模person、object和hand interactions,对于每个子网络,用了一个Intra-Modality Aggregation module(IMA),选择性地融合个体的交互。从每个模态的得到的features然后用一个Attentive Fusion Mechanism(AFM)进行融合,最后,从temporal context中提取cues,用cached memory来更好地分类存在的行为。
阅读全文 »

视频理解及分析的计算机视觉任务

  1. 之前看的时候,不管是论文还是一些博客,感觉都不是很清晰和全面,大家的定义不全面,特别是英文的名称上,这里写一下我的理解:

  2. 几个任务:

    • 行为识别(Action Recognition): 实质是对视频的分类任务,可以类别图像领域的分类任务
    • 时序动作定位(Temporal Action Localization): 在时间上对视频进行分类,给出动作的起止时间和类别
    • 时空行为检测(Spatio-Temporal Action Detection): 不仅识别出动作出现的区间类别,还要在空间范围内用一个bounding box标记处目标的位置
    • 还有人提出了时空动作定位(Spatio-temporal Action localization):和上一个是一样的
    • Action Detection在Paperswithcode上的定义: aims to find both where and when an action occurs within a video clip and classify what the action is taking place. Typically results are given in the form of action tublets, which are action bounding boxes linked across time in the video. This is related to temporal localization, which seeks to identify the start and end frame of an action, and action recognition, which seeks only to classify which action is taking place and typically assumes a trimmed video.
    • 论文里还提到了temporal action segmentation: 针对细粒度的actions和videos with dense occurrence of actions to predict action label labels at every frame of the video.
  3. 时空行为检测的算法:之前的论文都是都是基于行为识别(action recognition)的,很多都是基于早期的Slowfast的那个检测的方式:需要一个额外的检测器,实现行为检测。也就是在行为识别的基础上,再进行时空行为检测。但这并不是我理想中的方式,所以很多行为识别的算法,在AVA上也能上榜;最近看VideoMAE看了之后,就一直在看这个,没有去看看其它的。

  4. Action Detection数据集:

    • J-HMDB
    • UCF101-24
    • MultiSports
    • AVA
    • 其中,JHMDB和UCF101-24是密集标注数据集(每一帧都标注,25fps),这类数据集每个视频只有一个动作,大部分视频是单人做一些语义简单的重复动作;AVA为代表的稀疏标注数据集(隔一段时间标注一帧,1fps),没有给出明确的动作边界
阅读全文 »

记录一下用ollama和openwebui来部署几个大模型:Qwen2、LLaMa3和LLaVa

安装Ollama 及pull model

  1. 去ollama的官网下载安装ollama

  2. 更改变量:windows中添加环境变量: OLLAMA_MODELS: XXXXpath,linux需要到systemd中找到ollama的哪个文件,然后进行修改,这样ollama pull 模型的时候,就会安装到指定的路径

  3. ollama安装完成后,可以用ollama pull qwen2:7b这样来下载模型,也可以下载模型的GGUF文件,然后需要写一个配置文件,如config.txt,内容如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    FROM "path/to/llama3-8b-cn-q6/Llama3-8B-Chinese-Chat.q6_k.GGUF"

    TEMPLATE """{{- if .System }}
    <|im_start|>system {{ .System }}<|im_end|>
    {{- end }}
    <|im_start|>user
    {{ .Prompt }}<|im_end|>
    <|im_start|>assistant
    """

    SYSTEM """"""

    PARAMETER stop <|im_start|>
    PARAMETER stop <|im_end|>

阅读全文 »

强化学习

  1. 基本概念
    • 智能体(agent)和环境(environment):强化学习研究的问题是智能体与环境交互的问题,智能体把它的动作输出给环境,环境取得这个动作后会进行下一步,把下一步的观测与这个动作带来的奖励返回给智能体,这样的交互会产生很多观测,智能体的目的就是从这些观测之后学到能最大化奖励的策略。
    • 序列决策: 智能体的目的就是选取一系列的动作带来最大化奖励,所以这些选取的动作必须有长期的影响。与环境交互的过程中,智能体会获得很多观测,针对每一个观测,智能体会采取一个动作,也会得到一个奖励,所以历史是观测、动作、奖励的序列。
    • 奖励:奖励是由环境给的一种标量的反馈信号,这种信号可显示智能体在某一部采取某个策略的表现如何。强化学习的目的就是最大化智能体可以活得的奖励,智能体在环境里面存在的目的就是最大化它的期望的累积奖励。
    • 状态是对世界的完整描述,不会隐藏世界的信息,观测是对状态的部分描述。
阅读全文 »
0%