用Detectron2训练自己的目标检测数据集

  1. 主要是需要注册自己的数据集,然后使用数据集进行训练

    from detectron2.data.datasets import register_coco_instances

    register_coco_instances("train", {}, "json_annotation.json", "path/to/image/dir")

  2. 然后就是一些配置文件啥的

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pretraining[1]

作者是Zhan Tong, Yibing Song, Jue Wang 和王利民,分别来自南大,腾讯和上海AI Lab,论文引用[1]:Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.

Time

Key Words

  • video masked autoencoder using plain ViT backbones, tube masking with high ratio
  • data-efficient learner that could be successfully trained with only 3.5k videos. Data quality more important than quantity for SSVP(self-supervised video pretraining) when a domain shift exists between source and target dataset.

动机

  1. 对于Video Transformers,通常是derived from 基于图像的transformer,严重依赖于从大规模图像数据的pre-trained models,高效地训练一个vanilla vision transformer on the video dataset without any pre-trianed model or extra image data是一个挑战。

    阅读全文 »

《围城》

是钱钟书先生的作品,“围城”一词经常在生活中听到,很早就听说了这本书,近来终于如愿买了一本,想来闲暇时分来读一读,少看些手机网页资讯,多去看看感兴趣的书籍,先挖个坑,以后再慢慢填。后续会看一些书,也会陆续更新到主页。

章节故事

目前读到了方鸿渐留洋回来后,在家里的情节。与苏小姐、唐小姐之间发生了一些故事,后来与周家发生了一些矛盾,苏小姐也结婚了,就没有住在周家了,收到了三闾大学的聘请,回到了家,和父母说了,有见到了赵辛楣,准备去三闾大学了。

后续会继续更新。

End-to-End Object Detection with Transformers[1]

作者们是来自Facebook AI的Nicolas Carion, Francisco Massa等。论文引用[1]:Carion, Nicolas et al. “End-to-End Object Detection with Transformers.” ArXiv abs/2005.12872 (2020): n. pag.

Key Words:

  • a set of prediction loss(biparitte matching loss)
  • Transformer with parallel encoding

总结

以下“我们” 指代作者

  1. 提出了一个新的方法:将目标检测看作是直接的集合预测问题(set prediction problem),精简了检测的pipeline,去掉了很多手工设计的组件,像是NMS非极大值抑制和anchor generation。新方法DEtection TRansformer (DETR)的主要的要素是 set-based global loss(通过两个部分的匹配(bipartite matching)强制唯一的预测)和transformer的encoder-decoder架构。给定一个固定的小的learned object queries的集合,DETR推理物体和global image context的关系,直接并行地输出最后预测的集合。在COCO目标检测数据集上,DETR展示了和Faster RCNN相当的精度和实时的性能。DETR能够很容易推广来产生全景的分割 in a unified manner。
阅读全文 »

SSD: Single Shot MultiBox Detector[1]

作者是 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg,分别来自UNC Chapel Hill,Zoox Inc, Google, UMichigan。论文引用[1]:Liu, W. et al. “SSD: Single Shot MultiBox Detector.” European Conference on Computer Vision (2015).

Key Words

  • discretize output space of bboxes into a set of default boxes over different aspect ratios and scales.
  • combines predictions from multiple feature maps with different resolutions to handle objects of various sizes
  • multi-scale conv bbox outputs attached to multiple feataure maps at the top of the network
    阅读全文 »

Masked Autoencoders Are Scalable Vision Learners[1]

作者是来自FAIR的恺明、Xinlei Chen、Saining Xie等。论文引用[1]:He, Kaiming et al. “Masked Autoencoders Are Scalable Vision Learners.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 15979-15988.

以下“我们”指代作者

Time

  • 2021.Nov

摘要

  1. MAE:掩码自编码是可扩展的自监督学习器。思路:对输入图片的patches进行随机掩码,然后重构缺失的像素。两个core design:

    • 非对称的encoder-decoder架构;encoder只对patches的visible subset进行操作。lightweight decoder从latent representation和mask tokens中重建原始图片。
    • 对输入图片进行高比例掩码,例如75%,能够产生重要和有意义的自监督任务。

    将两者进行耦合,能够有效和高校地训练大的模型。可扩展的方式能够学习high-capacity models,扩展性很好。普通的(vanilla) ViT-Huge模型在ImageNet-1K上达到87.8%的best accuracy。在下游的任务上迁移的能力超过了监督的预训练,展示出来promising scaling behavior。

总结:

阅读全文 »

\(VideoMAE\ v2: Scaling\ Video\ Masked\ Autoencoders\ with\ Dual\ Masking^{[1]}\) 🎞️

作者们是来自南大 Novel Software Technology Lab、上海AI Lab和深圳先进院的团队,论文出处[1]: Wang, Limin, et al. "Videomae v2: Scaling video masked autoencoders with dual masking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

总结:

以下 “我们”指作者

阅读全文 »

VideoMAEv2: Scaling Video Masked Autoencoders with Dual Masking[1] 🎞️

作者们是来自南大 Novel Software Technology Lab、上海AI Lab和深圳先进院的团队,论文出处[1]: Wang, Limin, et al. "Videomae v2: Scaling video masked autoencoders with dual masking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

总结:

以下 “我们”指作者

阅读全文 »

YOLO 系列论文

开头说几句题外话:这几天想了想,打算用Blog来记录一下看到的论文,给自己一个督促。现在AI发展日新月异,尤其是ChatGPT出来之后,各种新的论文太多了,都不知道从哪里开始看,有点眼花缭乱,思来想去,还是一步一步来,从经典论文开始,当然也会看新的热度很高的论文,通过这种方式,来一点一点的进步吧。不积跬步无以至千里;千里之行,始于足下。加油!!!只要想做,什么时候都不算晚!!🏃

You Only Look Once: Unified, Real-Time Object Detection[1]🚀

作者是来自U of Washington、Allen Institute for AI和FAIR,包括Joseph Redmon、Santosh Divvalala、Ross Girshick 等。论文出处:[1]Redmon, Joseph et al. “You Only Look Once: Unified, Real-Time Object Detection.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015): 779-788.

总结:

阅读全文 »
0%