DINOv2
DINOv2: Learning Robust Visual Features without Supervision[1]
作者是来自Meta的Maxime Oquab等人。论文引用[1]:Oquab, Maxime et al. “DINOv2: Learning Robust Visual Features without Supervision.” ArXiv abs/2304.07193 (2023): n. pag.
Time
- 2024.Feb
Key Words
- curated dataset
总结
- 最近在大规模数据上预训练的NLP的模型的突破,为CV领域的类似的foundation models的提供了路子。这些模型通过产生general purpose visual features,能够放大uses of images in any system。这个工作展示了,在现有的预训练的方法中,特别是自监督的方法,如果能够在足够的、多样化的curated data上进行训练,能够得到这种features。作者revisit现有的方法,结合了不同的techniques,在data和model size上进行scale pretraining。大多数的technical contributions旨在加速和stabilizing training at scale。在数据方面,作者提出了一个自动化的pipeline,来构建一个dedicated, diverse和curated image dataset,而不是uncurated data,就像self-supervised中常做的那样。在model方面,作者训练了一个1B的ViT model,然后蒸馏到一些更小的models,超过了best available general-purpose features, OpenCLIP。