EVA:
Exploring the Limits of Masked Visual Representation Learning at
Scale[1]
作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin
et al. “EVA: Exploring the Limits of Masked Visual Representation
Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and
Pattern Recognition (CVPR) (2022): 19358-19369.
Time
Key Words
- masked out image-text aligned vision features
- CLIP
- MIM
总结
作者提出了EVA,是一个vision-centric的foundation
model,仅用公开的数据,来探索大规模visual
representation的极限。EVA是一个普通的ViT,预训练用来重建masked out
image-text aligned vision features conditioned on visible image
patches。通过这个代理任务,可以有效地scale up
EVA到1B参数,在多个代表性的下游任务上创造了新的记录,另外,在扩展EVA时,量变会引发迁移学习性能的质变,这种现象在其他模型中并不存在。例如,在极具挑战性的大规模词汇实例分割任务中,EVA实现了跨越式突破:作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上,均达到了接近最先进的性能水平。除了一个pure
vision encoder,EVA也可以作为一个vision-centric,
多模态的pivot,来连接images和text,作者发现,通过使用EVA初始化giant CLIP
model的视觉分支,不仅能显著提升训练稳定性,还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling
up和加速多模态foundation models的方向。