You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization[1]

作者是来自Technical Univ of Munich的Okan Kopuklu, Xiangyu Wei, Gerhard Rigoll。论文引用[1]:Köpüklü, Okan et al. “You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization.” ArXiv abs/1911.06644 (2019): n. pag.

Time

  • 2019.Nov.15(v1)
  • 2021.Oct.18(v5)

Key Words

  • single-stage with two branches

总结

  1. 当前的网络抽取时序信息和keyframe的空间信息是用两个分开的网络,然后用一个额外的mechanism来融合得到detections。YOWO是一个单阶段的架构,有两个分支,来同时抽取当前的时序和空间信息,预测bboxes和action 的概率 directly from video clips in one evaluation。因为架构是统一的,因此可以端到端的优化。YOWO架构速度快,能够做到在16-frames input clips上做到 34 frames-per-second,62 frames-per-second on 8-frames input clips。是当前在STAD任务上最快的架构。
阅读全文 »

Holistic Interaction Transformer Network for Action Detection[1]

作者是来自国立清华大学和微软AI的Gueter Josmy Faure, Min-Hung Chen和Shang-Hong Lai.论文引用[1]:Faure, Gueter Josmy et al. “Holistic Interaction Transformer Network for Action Detection.” 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2022): 3329-3339.

Time

  • 2022.Nov.18

Key Words

  • bi-modal structure
  • combine different interactions

总结

  1. 行为是关于我们如何与环境互动的,包括其他人、物体和我们自己。作者提出了一个新的多模态的Holistic Interaction Transformer Network (HIT),利用大量被忽略的、但是对人类行为重要的手部和姿态信息。HIT网络是一个全面的bi-modal框架,由一个RGB stream和pose stream组成。每个stream独立地建模person、object和hand interactions,对于每个子网络,用了一个Intra-Modality Aggregation module(IMA),选择性地融合个体的交互。从每个模态的得到的features然后用一个Attentive Fusion Mechanism(AFM)进行融合,最后,从temporal context中提取cues,用cached memory来更好地分类存在的行为。
阅读全文 »

视频理解及分析的计算机视觉任务

  1. 之前看的时候,不管是论文还是一些博客,感觉都不是很清晰和全面,大家的定义不全面,特别是英文的名称上,这里写一下我的理解:

  2. 几个任务:

    • 行为识别(Action Recognition): 实质是对视频的分类任务,可以类别图像领域的分类任务
    • 时序动作定位(Temporal Action Localization): 在时间上对视频进行分类,给出动作的起止时间和类别
    • 时空行为检测(Spatio-Temporal Action Detection): 不仅识别出动作出现的区间类别,还要在空间范围内用一个bounding box标记处目标的位置
    • 还有人提出了时空动作定位(Spatio-temporal Action localization):和上一个是一样的
    • Action Detection在Paperswithcode上的定义: aims to find both where and when an action occurs within a video clip and classify what the action is taking place. Typically results are given in the form of action tublets, which are action bounding boxes linked across time in the video. This is related to temporal localization, which seeks to identify the start and end frame of an action, and action recognition, which seeks only to classify which action is taking place and typically assumes a trimmed video.
    • 论文里还提到了temporal action segmentation: 针对细粒度的actions和videos with dense occurrence of actions to predict action label labels at every frame of the video.
  3. 时空行为检测的算法:之前的论文都是都是基于行为识别(action recognition)的,很多都是基于早期的Slowfast的那个检测的方式:需要一个额外的检测器,实现行为检测。也就是在行为识别的基础上,再进行时空行为检测。但这并不是我理想中的方式,所以很多行为识别的算法,在AVA上也能上榜;最近看VideoMAE看了之后,就一直在看这个,没有去看看其它的。

  4. Action Detection数据集:

    • J-HMDB
    • UCF101-24
    • MultiSports
    • AVA
    • 其中,JHMDB和UCF101-24是密集标注数据集(每一帧都标注,25fps),这类数据集每个视频只有一个动作,大部分视频是单人做一些语义简单的重复动作;AVA为代表的稀疏标注数据集(隔一段时间标注一帧,1fps),没有给出明确的动作边界
阅读全文 »

记录一下用ollama和openwebui来部署几个大模型:Qwen2、LLaMa3和LLaVa

安装Ollama 及pull model

  1. 去ollama的官网下载安装ollama

  2. 更改变量:windows中添加环境变量: OLLAMA_MODELS: XXXXpath,linux需要到systemd中找到ollama的哪个文件,然后进行修改,这样ollama pull 模型的时候,就会安装到指定的路径

  3. ollama安装完成后,可以用ollama pull qwen2:7b这样来下载模型,也可以下载模型的GGUF文件,然后需要写一个配置文件,如config.txt,内容如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    FROM "path/to/llama3-8b-cn-q6/Llama3-8B-Chinese-Chat.q6_k.GGUF"

    TEMPLATE """{{- if .System }}
    <|im_start|>system {{ .System }}<|im_end|>
    {{- end }}
    <|im_start|>user
    {{ .Prompt }}<|im_end|>
    <|im_start|>assistant
    """

    SYSTEM """"""

    PARAMETER stop <|im_start|>
    PARAMETER stop <|im_end|>

阅读全文 »

强化学习

  1. 基本概念
    • 智能体(agent)
    • 环境(environment)
阅读全文 »

在服务器的个人账户下上安装cuda

  1. cuda archive里找到对应的cuda版本的runfile文件,通过sh xxx.run来安装

  2. 安装的时候,需要去Options里更改toolkit和library的path,设置完后即可进行install

  3. install完了之后,需要去bashrc里添加以下内容:

1
2
export PATH="/xxx/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/xxx/cuda/lib64:$LD_LIBRARY_PATH"
  1. 然后source一下bashrc,再nvcc -V,如果显示版本号,则说明安装成功

  2. 遇到需要本地cuda的时候,可以

export CUDA_HOME=="/xxx/cuda/"

在服务器个人账户下安装GCC

  1. 去清华源下载需要的gcc的版本,网址在这里: https://mirrors.tuna.tsinghua.edu.cn/gnu/gcc/

  2. 解压完后,进入文件夹gcc-x.x.x,执行命令:./contrib/download_prerequisites

  3. make build,新建一个文件夹,cd build../configure --prefix=/home/xxx/gcc-x.x.0 --enable-shared --enable-threads=posix --enable-languages=c,c++,fortran --disable-multilib

  4. make -j10 && make install

  5. 打开 .bashrc,添加一下内容:

1
2
3
export PATH=/path/to/install/gcc-5.4/bin:$PATH
export LD_LIBRARY_PATH=/path/to/install/gcc-5.4/lib/:/path/to/install/gcc-5.4/lib64:$LD_LIBRARY_PATH`

  1. source一下bashrc,然后gcc --version,如果显示版本号,则说明安装成功
    阅读全文 »

Matplotlib 绘图

  1. 3D plot时候的需要注意的地方

https://www.codenong.com/48442713/

https://www.coder.work/article/2032713#google_vignette

Visual Objec Tracking(VOT)

Multiple Object Tracking(MOT)

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking[1]

作者是来自CMU、上海AI Lab和英伟达的Junkun Cao, Jiangmiao Pang, Xinshuo Weng, Rawal Khirodkar, Kris Kitani. 论文引用[1]:Cao, Jinkun et al. “Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 9686-9696.

Time

  • 2023.Feb

Key Words

  • object observations
  • Observation-Centric SORT, Simple,Online, and Real-Time
  • occlusion and non-linear object motion
阅读全文 »
0%