Exploring Plain Vision Transformer Backbones for Object Detection[1]

作者是来自FAIR的Yanghao Li, Hanzi Mao, Ross Girshick和Kaiming He. 论文引用[1]:Li, Yanghao, et al. "Exploring plain vision transformer backbones for object detection." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.

Time

  • 2022.Mar

Key Words

  • Plain ViT for Object Detection

总结

阅读全文 »

人类群星闪耀时

这是斯蒂芬.茨威格的书,本科的时候看了《一个陌生女人的来信》,还有一些小说集,真心写的不错,茨威格的心思太细腻了,将人物的心理活动描写的活灵活现,感觉到书中的人物都似乎真实的在脑海中存在过;又似乎像是把自己的心里想法描写出来了,这是我之前读完茨威格的书的最大的感受。这次的《人类群星闪耀时》,十四篇历史特写,不知道又会是什么样的故事。

序言

"一个真正具有世界历史意义的时刻--一个人类的群星闪耀时刻出现以前,必然会有漫长的无谓岁月流逝而去”。“历史才是真正的诗人和戏剧家,任何一个作家都别想超越历史本身。”

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection[1]

作者和MViT一样,是来自FAIR和UC Berkeley的Yang hao Li, Chao-Yuan Wu等人。论文引用[1]:Li, Yanghao et al. “MViTv2: Improved Multiscale Vision Transformers for Classification and Detection.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 4794-4804.

Time

  • 2021.Dec

Key Words

  • MViT that incorporates decomposed relative positional embeddings and residual pooling connections.
    阅读全文 »

记录一下参加internLM活动的学习过程

  1. InternLM的链接为 https://github.com/InternLM/Tutorial,

Docker的配置及使用

  1. windows和linux安装docker的方式有点不一样,但也不复杂,主要的地方在于需要弄一个registry_mirror,虽然不知道还有没有效,当然,能科学上网的话就方便很多了。

阅读全文 »

SLAM介绍

  1. SLAM: Simultaneous Localization and Mapping,翻译为“即时定位与建图”,是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动,如果这里的传感器主要为相机,那就称为“视觉SLAM”

Visual SLAM

  1. 经典视觉SLAM的框架主要有几个步骤:
    • 传感器信息读取:在视觉SLAM中主要为相机图像信息的读取和预处理;如果在机器人中,可能还有码盘、IMU等传感器信息的读取和同步。
    • 前端视觉里程计(Visual Odometry, VO):视觉里程计的任务是估算相邻图像间相机的运动,以及局部地图的样子,VO又称为前端(Front End)。
    • 后端(非线性)优化(Optimization):后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图,由于接在VO之后,又称为后端(Back End)。
    • 回环检测(Loop Closure Detection):回环检测判断机器人是否到达过先前的位置,如果检测到回环,它会把信息提供给后端进行处理。
    • 建图(Mapping)。它是根据估计的轨迹,建立与任务要求对应的地图。

Watch Only Once:An End-to-end Video Action Detection Framework[1]

作者是来自港大的罗平老师组的Shoufa Chen、Peize Sun、Enze Xie等人。论文引用[1]:Chen, Shoufa et al. “Watch Only Once: An End-to-End Video Action Detection Framework.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (2021): 8158-8167.

Time

  • 2021.Oct

Key Words

  • end-to-end unified network
  • task-specific features

总结

  1. 提出了一个端到端的pipeline for video action detection。当前的方法要么是将video action detection 这个任务解耦成action localization和action classification这两个分离的阶段,要么在一个阶段里训练两个separated models。相比之下,作者的方法将actor localization和action classification弄在了一个网络里。通过统一backbone网络,去掉很多认为的手工components,整个pipeline被简化了。WOO用一个unified video backbone来提取features for actor location 和action localization,另外,引入了spatial-temporal action embeddings,设计了一个 spatial-temporal fusion module来得到更多的含有丰富信息的discriminative features,提升了action classification的性能。
阅读全文 »

YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition[1]

作者是Nguyen Dang Duc Manh, Duong Viet Hang等人。论文引用[1]:Dang, Duc M et al. “YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition.” (2024).

Time

  • 2024.Aug

Key Words

  • one-stage detector
  • different configurations to customie different model components
  • efficient while reducing computational resource requirements

总结

  1. YOWOv3是YOWOv2的增强版,提供了更多的approach,用了不同的configurations来定制不同的model,YOWOv3比YOWOv2更好。
  2. STAD是计算机视觉中一个常见的任务,涉及到检测location(bbox), timing(exact frame),and type(class of action), 需要对时间和空间特征进行建模。有很多的方法来解决STAD的问题,例如ViT,ViT的效果很好,但是计算量比较大。例如Hiera model由超过600M的参数,VideoMAEv2由超过1B的参数,增加了训练的成本和消耗。为了解决STAD问题,同时最大程度减弱训练和推理时间的成本,有人提出用了YOWO方法,虽然可以做到实时,但是也有限制:不是一个efficient model with low computational requirements。框架的作者已经停止维护了,但是还有很多的问题。本文的contribution如下:
    • new lightweight framework for STAD
    • efficient model
    • multiple pretrained resources for application:creating a range of pretrained resources spanning from lightweight to sophisticated models to cater to diverse requirements for real-world applications。
阅读全文 »

YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time STAD[1]

作者是来自哈工大的 Jianhuan Yang和Kun Dai,论文引用[1]:Yang, Jianhua and Kun Dai. “YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection.” ArXiv abs/2302.06848 (2023): n. pag.

Time

  • 2023.Feb

Key Words

  • combined 2D CNN of diffferent size with 3D CNN
  • anchor-free mechanism
  • dynamic label assignment
  • multi-level detection structure

总结

  1. YOWOv2利用了3D backbone和2D backbone的优势,来做accurate action detection。设计了一个multi-level detection pipeline来检测不同scales的action instances。为了实现这个目标,构建了一个 简单高效地2D backbone with FPN,来提取不同level的classification features和regression features。对于 3D backbone,采用现有的3D CNN,通过结合3D CNN和不同size的2D CNN,设计了YOWOv2 family, 包括:YOWOv2-Tiny,YOWOv2-Medium和YOWOv2-Large。同时引入了dynamic label assignment strategyanchor-free机制,来使得YOWOv2和先进的模型架构一致。YOWOv2比YOWO好很多,同时能够保证实时检测。
阅读全文 »
0%