Deformable DETR: Deformable Transformers for End-to-End Object Detection[1]

作者是来自商汤、中科大和CUHK的Xizhou Zhou, Weijie Su, Lewei Lu 等人,论文引用[1]:Zhu, Xizhou et al. “Deformable DETR: Deformable Transformers for End-to-End Object Detection.” ArXiv abs/2010.04159 (2020): n. pag.

Time

  • 2021.Mar

Key Words

  • deformable attention module aggregates multi-scale feature maps via attention mechanism
  • 一句话来说:Deformable DETR的核心是Deformable attention,用query + pos 生成 offset,sample locations 等于reference points + offset,然后对query做Linear得到Attention weight,对feature map做Linear得到value,然后用sample locations去取对应位置的value,将attention weight 乘以sampling value,然后将各个head的输出进行拼接,再经过Linear,得到最终的输出

动机

  • DETR收敛慢
  • DETR检测小目标的性能比较低

总结

  1. DETR在目标检测中,用来去掉很多人工设计的components,同时也有很好的性能。然而,它收敛比较慢,由于Attention在处理图像特征中的限制,特征的spatial resolution有限。为了缓解这些问题,提出了Deformable DETR,这个attention只对一个referrence附近的ke sampling points进行attend,Deformable DETR能够实现很好的性能,超越了DETR(特别是小目标)。
阅读全文 »

Non-local Neural Networks[1]

作者是来自CMU和FAIR的Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He.论文引用[1]:Wang, X. et al. “Non-local Neural Networks.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2017): 7794-7803.

Time

  • 2017.Nov

Key Words

  • non-local 和 3D 卷积可以被视为将C2D扩展到时间维度的两种方式。
  • long-range dependencies
  • computes the response at a position as a weighted sum of the features at all positions
  • consider all positions

动机

  1. 计算长程依赖在神经网络中很重要,对于系列数据(speech, language),循环操作是主流,对于图像数据,通过构建卷积的deep stacks,能够得到大的感受野,建模长程依赖。卷积和循环操作都处理局部相邻信息,either in space or time。因此,长程依赖只有当这些操作重复应用的时候才能捕捉到,通过数据逐步地propagating信号。重复Local operation有一些限制:首先,计算是不高效的;其次,造成了优化困难;最后,这些挑战造成了multihop dependency modeling
阅读全文 »

Exploring Plain Vision Transformer Backbones for Object Detection[1]

作者是来自FAIR的Yanghao Li, Hanzi Mao, Ross Girshick和Kaiming He. 论文引用[1]:Li, Yanghao, et al. "Exploring plain vision transformer backbones for object detection." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.

Time

  • 2022.Mar

Key Words

  • Plain ViT for Object Detection

总结

  1. 作者探索了plain, non-hierarchical ViT作为backbone,用于object detection,这个涉及使得原始的ViT架构能够被fine-tuned,用于object detection,不需要重新设计一个hierarchical backbone for pre-training。只需很小的adaptations for fine-tuning,这个plain-backbone detector能够实现很好的结果。作者观察到:
    • 从单个尺度的feature map构建一个simple feature pyramid就足够了,不需要FPN的设计
    • 用window attention(without shifting),辅以很少的cross-window propagation blocks就足够了。
    用经过MAE预训练的plain ViT backbone,detector称之为(ViTDet),能够和之前的基于hierarchical backbone的leading methods竞争。
阅读全文 »

人类群星闪耀时

这是斯蒂芬.茨威格的书,本科的时候看了《一个陌生女人的来信》,还有一些小说集,真心写的不错,茨威格的心思太细腻了,将人物的心理活动描写的活灵活现,感觉到书中的人物都似乎真实的在脑海中存在过;又似乎像是把自己的心里想法描写出来了,这是我之前读完茨威格的书的最大的感受。这次的《人类群星闪耀时》,十四篇历史特写,不知道又会是什么样的故事。

序言

"一个真正具有世界历史意义的时刻--一个人类的群星闪耀时刻出现以前,必然会有漫长的无谓岁月流逝而去”。“历史才是真正的诗人和戏剧家,任何一个作家都别想超越历史本身。”

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection[1]

作者和MViT一样,是来自FAIR和UC Berkeley的Yang hao Li, Chao-Yuan Wu等人。论文引用[1]:Li, Yanghao et al. “MViTv2: Improved Multiscale Vision Transformers for Classification and Detection.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 4794-4804.

Time

  • 2021.Dec

Key Words

  • MViT that incorporates decomposed relative positional embeddings and residual pooling connections.
    阅读全文 »

LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection[1]

作者是来自百度、阿德莱德大学、北航、自动化所和澳洲国立大学的Qiang Chen,Xiangbo Su, Xinyu Zhang等人。论文引用[1]:

Key Words

  • Real-Time Detection With Transformer
  • interleaved window and global attention
  • window-major order feature map organization

Time

  • 2024.Jun

总结

  1. 作者提出了一个light-weight transformer, LW-DETR,在实时检测上超过了YOLOs,这个架构是简单地ViT encoder、projector、和一个浅的DETR decoder的堆叠。这个方法利用了最近的技术包括training-effective techniques:improved loss和预训练,interleaved window 和global attention用来减小ViT encoder的复杂度。通过汇聚多个level的feature maps、intermediate 和final feature mapss来提高ViT encoder,形成更丰富的特征图,引入window-major feature map,来提高interleaved attention计算的效率。结果展示提出的方法超过了现有的检测器,包括YOLO和它的变体。
阅读全文 »

记录一下参加internLM活动的学习过程

  1. InternLM的链接为 https://github.com/InternLM/Tutorial,

Docker的配置及使用

  1. windows和linux安装docker的方式有点不一样,但也不复杂,主要的地方在于需要弄一个registry_mirror,虽然不知道还有没有效,当然,能科学上网的话就方便很多了。

阅读全文 »

SLAM介绍

  1. SLAM: Simultaneous Localization and Mapping,翻译为“即时定位与建图”,是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动,如果这里的传感器主要为相机,那就称为“视觉SLAM”

Visual SLAM

  1. 经典视觉SLAM的框架主要有几个步骤:
    • 传感器信息读取:在视觉SLAM中主要为相机图像信息的读取和预处理;如果在机器人中,可能还有码盘、IMU等传感器信息的读取和同步。
    • 前端视觉里程计(Visual Odometry, VO):视觉里程计的任务是估算相邻图像间相机的运动,以及局部地图的样子,VO又称为前端(Front End)。
    • 后端(非线性)优化(Optimization):后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图,由于接在VO之后,又称为后端(Back End)。
    • 回环检测(Loop Closure Detection):回环检测判断机器人是否到达过先前的位置,如果检测到回环,它会把信息提供给后端进行处理。
    • 建图(Mapping)。它是根据估计的轨迹,建立与任务要求对应的地图。

Watch Only Once:An End-to-end Video Action Detection Framework[1]

作者是来自港大的罗平老师组的Shoufa Chen、Peize Sun、Enze Xie等人。论文引用[1]:Chen, Shoufa et al. “Watch Only Once: An End-to-End Video Action Detection Framework.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (2021): 8158-8167.

Time

  • 2021.Oct

Key Words

  • end-to-end unified network
  • task-specific features

总结

  1. 提出了一个端到端的pipeline for video action detection。当前的方法要么是将video action detection 这个任务解耦成action localization和action classification这两个分离的阶段,要么在一个阶段里训练两个separated models。相比之下,作者的方法将actor localization和action classification弄在了一个网络里。通过统一backbone网络,去掉很多认为的手工components,整个pipeline被简化了。WOO用一个unified video backbone来提取features for actor location 和action localization,另外,引入了spatial-temporal action embeddings,设计了一个 spatial-temporal fusion module来得到更多的含有丰富信息的discriminative features,提升了action classification的性能。
阅读全文 »
0%