EVA
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale[1]
作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin et al. “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 19358-19369.
Time
- 2022.Dec
Key Words
- masked out image-text aligned vision features
- CLIP
- MIM
总结
作者提出了EVA,是一个vision-centric的foundation model,仅用公开的数据,来探索大规模visual representation的极限。EVA是一个普通的ViT,预训练用来重建masked out image-text aligned vision features conditioned on visible image patches。通过这个代理任务,可以有效地scale up EVA到1B参数,在多个代表性的下游任务上创造了新的记录,另外,在扩展EVA时,量变会引发迁移学习性能的质变,这种现象在其他模型中并不存在。例如,在极具挑战性的大规模词汇实例分割任务中,EVA实现了跨越式突破:作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上,均达到了接近最先进的性能水平。除了一个pure vision encoder,EVA也可以作为一个vision-centric, 多模态的pivot,来连接images和text,作者发现,通过使用EVA初始化giant CLIP model的视觉分支,不仅能显著提升训练稳定性,还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling up和加速多模态foundation models的方向。
scaling up预训练的语言模型在过去的几年里革新了NLP,这个成功的key是简单和scalable的masked signal prediction的自监督学习任务,用几乎无限的unlabelled data, Transformer能够被scale 到Billion参数,只需要很少的tuning,下游任务就能够泛化地很好,进一步在compute, data, model sizes上进行scaling,预训练的语言模型不仅会持续地性能提高,还能有惊人的in-context learning的能力。 受NLP中model的启发,将这个成功从NLP中推广到CV中,来scale up vision-centric foundation model,能够对vision和多模态的下游任务都有beneficial,最近,MIM是一个可行的vision model 预训练和scaling的方式,然而,最有竞争力的billion-sized vision pre-trained models仍然依赖于有大量人类标注数据的监督或者弱监督训练。MIM是作为一个监督预训练之间的一个初始化stage,或者一个纯MIM预训练model不能实现favorable 的性能,作者认为这个gap是来自于自然图像是raw而且information-sparse,同时,一个理想的vision pretext task需要的是不仅low-level几何和结构信息的抽象,还有高级语义,这很难通过pixel-level的recovery task来capture。
在本文中,作者寻找一个合适的MIM pretext task用于大规模的vision representation learning,探索它在数十亿未标注数据和1B参数上的limits,最近,一些尝试利用image-image或者image-text对比学习的语义信息用于MIM预训练,在vision的下游任务表现很好,然而,仍然有一些debate:tokenized semantic features能为masked modeling提供更好的supervision signal,不需要masked prediction tasks,通过简单地后蒸馏过程也能实现很好的性能。通过一个实验性的研究,作者发现,简单地image-text aligned vision features作为prediction targets in MIM能够scale up well,在多个下游任务上实现满意的性能,这个pre-training tasks结合了图文对比学习中对高层语义的抽象能力,以及掩码图像建模在几何与结构信息捕捉方面的优势,从而涵盖了大多数视觉感知任务所需的信息.
通过这个代理任务,能够scale up一个普通的ViT encoder到1B参数,称为EVA,有很强的visual representation。
在这个部分,作者寻找一个很强的transfer performance的MIM vision pretext task,基于之前的vision pre-training,作者研究了两个Promising的方法:recovering masked out tokenized semantic vision features; 从strong pre-trained representation中蒸馏到的feature。一些实验发现:额外的CLIP feature tokenization process对于实现很好的下游任务是不必要的; 当pre-training变长之后,feature 蒸馏不能提供持续的performance gain,相反,在visible image patches条件下简单地重建masked out CLIP vision features性能比较好,这被选择用来scaling up EVA。 这个MIM代理任务不是有作者提出来的,h回归masked out image-text对齐的vision features for MIM pretraining在MVP被研究了,最近的被MILAN revisited,在本文中,作者展示了这个代理任务能够scale up到Billion参数,数十亿的无标签的data用于vision-centric representation learning,不需要semantic feature quantization/tokenization,显式地利用image-text paired pretraining data和large corpora in BEiT-3。
EVA是一个普通的ViT,它的shape是和ViT giant和BEiT-3的vision encoder一样,没有用相对位置编码和layer-scale during pre-training。 -Pre-training objective: EVA 被预训练用来重建在visible image patches条件下的masked out image-text aligned vision features。用[mask] token 来corrupt 输入的patches,然后用block-wise masking,masking ratio是 40%, MIM 预训练的target是开源的CLIP-L/14 vision tower,EVA的输出特征首先被normalized,然后通过一个linear layer 映射到和CLIP feature相同的维度,作者用negative cosine similarity 作为loss function。
用作MIM prediction targets的CLIP features是在400 million image-text dataset上自监督训练得到的,在预训练期间,EVA隐式地利用了这个数据集的knowledge,同时,这些CLIP features也广泛地用于其它的SOTA representation learning和预训练works,比如BEiT等。
- 预训练设置和超参数:EVA用了Adam优化器和解耦的weight decay,peak learning rate是 1e3,根据consine learning rate进行decay,作者采用了stochastic depth,0.1 rate for regularization,RandResizeCrop(0.2, 1) for data augmentation。
\(Fig.1^{[1]}\)
作者发现,用足够的数据和计算,简单地回归masked out image-text aligned
vision features(CLIP features) scales up
well,能够很好地transfer到多个下游任务。