End-to-End Object Detection with Transformers[1]

作者们是来自Facebook AI的Nicolas Carion, Francisco Massa等。论文引用[1]:Carion, Nicolas et al. “End-to-End Object Detection with Transformers.” ArXiv abs/2005.12872 (2020): n. pag.

Key Words:

  • a set of prediction loss(biparitte matching loss)
  • Transformer with parallel encoding

总结

以下“我们” 指代作者

  1. 提出了一个新的方法:将目标检测看作是直接的集合预测问题(set prediction problem),精简了检测的pipeline,去掉了很多手工设计的组件,像是NMS非极大值抑制和anchor generation。新方法DEtection TRansformer (DETR)的主要的要素是 set-based global loss(通过两个部分的匹配(bipartite matching)强制唯一的预测)和transformer的encoder-decoder架构。给定一个固定的小的learned object queries的集合,DETR推理物体和global image context的关系,直接并行地输出最后预测的集合。在COCO目标检测数据集上,DETR展示了和Faster RCNN相当的精度和实时的性能。DETR能够很容易推广来产生全景的分割 in a unified manner。
阅读全文 »

SSD: Single Shot MultiBox Detector[1]

作者是 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg,分别来自UNC Chapel Hill,Zoox Inc, Google, UMichigan。论文引用[1]:Liu, W. et al. “SSD: Single Shot MultiBox Detector.” European Conference on Computer Vision (2015).

Key Words

  • discretize output space of bboxes into a set of default boxes over different aspect ratios and scales.
  • combines predictions from multiple feature maps with different resolutions to handle objects of various sizes
  • multi-scale conv bbox outputs attached to multiple feataure maps at the top of the network
    阅读全文 »

Masked Autoencoders Are Scalable Vision Learners[1]

作者是来自FAIR的恺明、Xinlei Chen、Saining Xie等。论文引用[1]:He, Kaiming et al. “Masked Autoencoders Are Scalable Vision Learners.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 15979-15988.

以下“我们”指代作者

Time

  • 2021.Nov

摘要

  1. MAE:掩码自编码是可扩展的自监督学习器。思路:对输入图片的patches进行随机掩码,然后重构缺失的像素。两个core design:

    • 非对称的encoder-decoder架构;encoder只对patches的visible subset进行操作。lightweight decoder从latent representation和mask tokens中重建原始图片。
    • 对输入图片进行高比例掩码,例如75%,能够产生重要和有意义的自监督任务。

    将两者进行耦合,能够有效和高校地训练大的模型。可扩展的方式能够学习high-capacity models,扩展性很好。普通的(vanilla) ViT-Huge模型在ImageNet-1K上达到87.8%的best accuracy。在下游的任务上迁移的能力超过了监督的预训练,展示出来promising scaling behavior。

总结:

阅读全文 »

\(VideoMAE\ v2: Scaling\ Video\ Masked\ Autoencoders\ with\ Dual\ Masking^{[1]}\) 🎞️

作者们是来自南大 Novel Software Technology Lab、上海AI Lab和深圳先进院的团队,论文出处[1]: Wang, Limin, et al. "Videomae v2: Scaling video masked autoencoders with dual masking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

总结:

以下 “我们”指作者

阅读全文 »

VideoMAEv2: Scaling Video Masked Autoencoders with Dual Masking[1] 🎞️

作者们是来自南大 Novel Software Technology Lab、上海AI Lab和深圳先进院的团队,论文出处[1]: Wang, Limin, et al. "Videomae v2: Scaling video masked autoencoders with dual masking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

总结:

以下 “我们”指作者

阅读全文 »

YOLO 系列论文

开头说几句题外话:这几天想了想,打算用Blog来记录一下看到的论文,给自己一个督促。现在AI发展日新月异,尤其是ChatGPT出来之后,各种新的论文太多了,都不知道从哪里开始看,有点眼花缭乱,思来想去,还是一步一步来,从经典论文开始,当然也会看新的热度很高的论文,通过这种方式,来一点一点的进步吧。不积跬步无以至千里;千里之行,始于足下。加油!!!只要想做,什么时候都不算晚!!🏃

You Only Look Once: Unified, Real-Time Object Detection[1]🚀

作者是来自U of Washington、Allen Institute for AI和FAIR,包括Joseph Redmon、Santosh Divvalala、Ross Girshick 等。论文出处:[1]Redmon, Joseph et al. “You Only Look Once: Unified, Real-Time Object Detection.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015): 779-788.

总结:

阅读全文 »

sshKey 记录

今天传代码的时候,发现一直报连接超时,kex_exchange_identification: Connection closed by remote host,Please make sure you have the correct access rights and the repository exists. 突然又郁闷了。搜了一圈之后,发现好像是远程密钥的问题。在出现Are you sure want to continue connecting (yes/no/[fingerprint])? 的时候,输入yes,然后就OK了。

阅读全文 »

部署博客方式

  1. 部署在 Vercel,Netlify 这样的免费平台上
  2. 部署在 Github Pages 上, 是用gh-pages分支来部署的,xxx.github.io可以用来做个人主页介绍,gh-pages用来做博客

部署在 Vercel 上的博客

  1. 可以通过和github账号关联,一键部署,很方便

  2. 在本地安装vercel, 通过vercel的命令行工具,来实现部署

  3. 遇到的问题,vercel易被DNS污染,正常访问打不开,看到有帖子说可以买个域名弄一下,有钱了再买个域名玩一玩, 😭

  4. 因为tags的名称字母的大小写的问题,导致tags页面出现404的解决方案:将.deploy_git/.git/config里的ignorecase设为false即可。

https://blog.zhheo.com/p/5511910d.html

阅读全文 »

趁着这个计算神经科学的课,用一用git

主要的流程是:

  • git init 初始化
  • git add . 加载所有文件
  • git commit -m "first commit"
  • git branch -M main 将主分支名字由master 改为main
  • git remote add origin github.com/xxx/xxx.git 后面的这个链接名字换成了 origin
  • git push -u origin main 传到origin的main分支上 ,用这个命令也行,git push --set-upstream origin xxx

如果代码或者文件有修改,可以用git status 查看改动的文件,用git add 添加文件到缓存区,git add . 是一次性添加所有文件,然后 git commit -m "first commit" 提交到本地仓库,git push 提交到远程仓库。

阅读全文 »
0%