DINO
Emerging Properties in Self-Supervised Vision Transformers[1]
作者是来自FAIR、Inria和Sorbonne University的团队,论文引用[1]:Caron, Mathilde et al. “Emerging Properties in Self-Supervised Vision Transformers.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (2021): 9630-9640.
Time
- 2021.Apr
动机
- Transformer在视觉里的成功是否由于在pretraining里的supervision。Transformer在NLP里的成功的一个主要因素是自监督预训练。
- 作者研究了自监督预训练 on ViT features. ### Key Words
- Self-supervised ViT features
- self-distillation with no labels (DINO)
总结
- 在ViT上的自监督预训练的特点,没有出现在supervised ViTs上的:
- explicitly包含了scene layout 和,object boundaries,这个信息主要是在最后一个block的自注意力模块。
- self-supervised ViT 用一个基本的k-NN就能在ImageNet上实现78.3%的准确率,补血药任何fintuning、线性分类器或者数据增强。
- 用k-NN实现很好的性能是在和momentum encoder和multi-crop augmentation结合情况下实现的。用smaller patches with ViTs能够提高resulting features的质量。