SSD: Single Shot MultiBox Detector[1]

作者是 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg,分别来自UNC Chapel Hill,Zoox Inc, Google, UMichigan。论文引用[1]:Liu, W. et al. “SSD: Single Shot MultiBox Detector.” European Conference on Computer Vision (2015).

Key Words

  • discretize output space of bboxes into a set of default boxes over different aspect ratios and scales.
  • combines predictions from multiple feature maps with different resolutions to handle objects of various sizes
  • multi-scale conv bbox outputs attached to multiple feataure maps at the top of the network
    阅读全文 »

Masked Autoencoders Are Scalable Vision Learners[1]

作者是来自FAIR的恺明、Xinlei Chen、Saining Xie等。论文引用[1]:He, Kaiming et al. “Masked Autoencoders Are Scalable Vision Learners.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 15979-15988.

以下“我们”指代作者

Time

  • 2021.Nov

摘要

  1. MAE:掩码自编码是可扩展的自监督学习器。思路:对输入图片的patches进行随机掩码,然后重构缺失的像素。两个core design:

    • 非对称的encoder-decoder架构;encoder只对patches的visible subset进行操作。lightweight decoder从latent representation和mask tokens中重建原始图片。
    • 对输入图片进行高比例掩码,例如75%,能够产生重要和有意义的自监督任务。

    将两者进行耦合,能够有效和高校地训练大的模型。可扩展的方式能够学习high-capacity models,扩展性很好。普通的(vanilla) ViT-Huge模型在ImageNet-1K上达到87.8%的best accuracy。在下游的任务上迁移的能力超过了监督的预训练,展示出来promising scaling behavior。

总结:

阅读全文 »

VideoMAEv2: Scaling Video Masked Autoencoders with Dual Masking[1] 🎞️

作者们是来自南大 Novel Software Technology Lab、上海AI Lab和深圳先进院的团队,论文出处[1]: Wang, Limin, et al. "Videomae v2: Scaling video masked autoencoders with dual masking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

总结:

以下 “我们”指作者

阅读全文 »

YOLO 系列论文

开头说几句题外话:这几天想了想,打算用Blog来记录一下看到的论文,给自己一个督促。现在AI发展日新月异,尤其是ChatGPT出来之后,各种新的论文太多了,都不知道从哪里开始看,有点眼花缭乱,思来想去,还是一步一步来,从经典论文开始,当然也会看新的热度很高的论文,通过这种方式,来一点一点的进步吧。不积跬步无以至千里;千里之行,始于足下。加油!!!只要想做,什么时候都不算晚!!🏃

You Only Look Once: Unified, Real-Time Object Detection[1]🚀

作者是来自U of Washington、Allen Institute for AI和FAIR,包括Joseph Redmon、Santosh Divvalala、Ross Girshick 等。论文出处:[1]Redmon, Joseph et al. “You Only Look Once: Unified, Real-Time Object Detection.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015): 779-788.

总结:

阅读全文 »

sshKey 记录

今天传代码的时候,发现一直报连接超时,kex_exchange_identification: Connection closed by remote host,Please make sure you have the correct access rights and the repository exists. 突然又郁闷了。搜了一圈之后,发现好像是远程密钥的问题。在出现Are you sure want to continue connecting (yes/no/[fingerprint])? 的时候,输入yes,然后就OK了。

阅读全文 »

部署博客方式

  1. 部署在 Vercel,Netlify 这样的免费平台上
  2. 部署在 Github Pages 上, 是用gh-pages分支来部署的,xxx.github.io可以用来做个人主页介绍,gh-pages用来做博客

部署在 Vercel 上的博客

  1. 可以通过和github账号关联,一键部署,很方便

  2. 在本地安装vercel, 通过vercel的命令行工具,来实现部署

  3. 遇到的问题,vercel易被DNS污染,正常访问打不开,看到有帖子说可以买个域名弄一下,有钱了再买个域名玩一玩, 😭

  4. 因为tags的名称字母的大小写的问题,导致tags页面出现404的解决方案:将.deploy_git/.git/config里的ignorecase设为false即可。

https://blog.zhheo.com/p/5511910d.html

阅读全文 »

趁着这个计算神经科学的课,用一用git

主要的流程是:

  • git init 初始化
  • git add . 加载所有文件
  • git commit -m "first commit"
  • git branch -M main 将主分支名字由master 改为main
  • git remote add origin github.com/xxx/xxx.git 后面的这个链接名字换成了 origin
  • git push -u origin main 传到origin的main分支上 ,用这个命令也行,git push --set-upstream origin xxx

其它: - git rm/git mv 删除/移动文件到暂存区 - git log 查看日志 - git diff/git status 查看工作区 - git commit 提交更改的文件 - git push 推送更改到远程仓库 - git branch 列出本地分支 - git branch/git checkout -b 新建分支 - git branch -d 删除分支 - git pull 更新分支 - git merge/git rebase 合并目标分支内容到当前分支 - git reset/git checkout . 强制回退到历史节点/回退到本地所有修改而未提交的

  1. 如果代码或者文件有修改,可以用git status 查看改动的文件,用git add 添加文件到缓存区,git add . 是一次性添加所有文件,然后 git commit -m "first commit" 提交到本地仓库,git push 提交到远程仓库。
阅读全文 »

Transformer

两种注意力评分: 加性注意力和缩放点积注意力

向量化:

Q 为 \(n \times d\)维,K为 \(m \times d\) 维,V为 \(m \times v\) 维,n,m为query个数和键值对的个数。d,v为值的维数。

nnConv2d卷积操作的特征图的尺寸计算

经过卷积后的特征图尺寸等于卷积核滑动的次数 + 1,现在假设卷积前的特征图宽度为N,卷积后输出的特征图宽度为M ,padding之后的矩阵宽度等于N+2*padding 。卷积核的滑动次数等于 M-1

\[ N+2{\times}padding = (M-1){\times}strides +kernel\_size \] 输出矩阵的宽度

\[M = (N + 2* padding - kernel\_size)/stride + 1 \]

相关资源

知乎链接

PaddleDeepLearning

Relative Position Encoding

  1. 先计算出每个位置的相对索引,然后给行、列标加上 \(M-1\)\(M\)为窗口的大小,然后行标乘以 \(2M-1\),然后行、列标相加,得到 relative position index,然后根据 \(2M-1 \times 2M-1\)的 relative position bias table,利用relative position index进行索引,得到对应的relative position bias。

参考链接:

  • https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.788&vd_source=14b6fe8ee5c754517b8d9ea208b65098
  • https://www.cnblogs.com/shiyublog/p/11185625.html
  • https://www.cnblogs.com/shiyublog/p/11236212.html

各种卷积

  1. 卷积的公式: \[(f*g)(t)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau \]

  2. 卷积的特点:权重共享(weights sharing)、平移不变性(translation invariance)

  3. 转置卷积:

    • 对于卷积核尺寸为k,步长stride=1, 填充padding=0的标准卷积,等价的转置卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = i' + (k - 1)\]

    同时转置卷积的输入矩阵需要进行 $ padding'= k-1 $ 的填充

    • 对于stride>1,卷积核的尺寸为k,填充padding=0的标准卷积,等价的专职卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = s(i'- 1) + k \]

    同时转置卷积的输入矩阵需要进行 \(padding'=k-1\) 的填充,相邻元素间的空洞大小为 \(s-1\)

  4. 深度可分离卷积:就是将一般的卷积的对各个通道运算完,求和的那一步,拆分开,让一个 \(1 \times 1\)的卷积去做这个求和,前面各个通道的卷积核对应执行卷积操作。

  5. 空间可分离卷积:就是将 \(H \times W\)的卷积核,拆分成 \(H \times 1\)\(1 \times W\) 的卷积核。能够减少运算的次数

  6. 空洞卷积:就是在卷积核中间插入空洞,增大感受野。空洞卷积的输出尺寸计算公式为:

\[ O = \frac{I + 2P - D(K-1) - 1}{S} + 1 \]

其中: - O: 输出特征图大小 - I: 输入特征图大小 - P: padding大小 - D: 空洞率(dilation rate) - K: 卷积核大小 - S: 步长(stride)

空洞卷积的有效感受野大小为:\((k-1) * d + 1\),其中k为卷积核大小,d为空洞率。

0%