SigLIP
Sigmoid Loss for Language Image Pre-Training[1]
作者是来自DeepMind的Xiaohua Zhai等人,论文引用[1]:Zhai, Xiaohua et al. “Sigmoid Loss for Language Image Pre-Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 11941-11952.
Time
- 2023.Mar
Key Words
- sigmoid loss
总结
- 作者提出了一个简单的pairwise Sigmoid loss for Language-Image Pre-training(SigLIP),不同于标准的,用softmax normalization的contrastive learning,sigmoid loss仅对image-text pairs进行操作,不需要pairwise similarity for normalization的global view,这个sigmoid loss同时能够进一步scaling up batch sizes,和Locked-image tuning结合,只需要TPUv4 chips,作者训了一个SigLiT model,在ImageNet上 zero-shot,实现了84.5%的精度,将批量大小与损失函数解耦后,得以进一步研究样本与样本对的影响,以及负样本与正样本比例的作用。最后,作者将batch size设到一个极限,up to one million,发现增大的batch size的benefits的下降了,合理的batch size设为32k是足够了。