ALIGN
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision[1]
作者是来自Google的Chao Jia, Yinfei Yang等人,论文引用[1]:Jia, Chao et al. “Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision.” International Conference on Machine Learning (2021).
Time
- 2021.Jun
Key Words
总结
- 预训练表征对于很多NLP和感知任务很重要,当NLP中的表征学习不需要人类标注的时候,迁移到raw text上训练的时候,视觉和视觉语言表征仍然依然严重依赖于精心准备的训练集,这成本很高而且需要专家知识。对于视觉应用,通过很多有显示label的数据集例如ImageNet或者OpenImages来学习表征。对于视觉语言,流行的数据集例如Conceptual Captions, MSCOCO或者CLIP,都涉及non-trivial 数据收集的过程。这个费劲的精心挑选的过程限制了数据集的规模,阻碍了训练模型的scaling。在这篇文章中,作者利用一个超过十亿的图像文本对的有噪声的数据集,不需要费劲地过滤或者后处理步骤。一个简单地双编码器结构用对比损失,学习对齐图像文本对的视觉语言表征。 展示了语料库的规模可以弥补其噪声,即使一个简单的学习策略,就能实现SOTA的表征。作者的视觉表征当迁移到例如ImageNet这样的分类任务时,实现了强大的性能。对齐的视觉语言表征enable zero-shot的图像分类和在数据集Flickr30K上达到SOTA,即使和更复杂的交叉注意力的模型相比,这些表征使能用复杂的文本和图像文本queries实现跨模态的搜索。