c-jepa

Connecting Joint-Embedding Predictve Architecture with Contrastive Self-supervised Learning[1]

作者是来自CMU和NYU的 Shentong Mo和Shengbang Tong,论文引用[1]:Mo, Shentong and Shengbang Tong. “Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning.” ArXiv abs/2410.19560 (2024): n. pag.

Time

  • 2024.Oct

Key Words

  • entire collapsing and mean of patch representation

总结

  1. 在最近的无监督视觉表征学习中,Joint-Embedding Predictive Architecture(JEPA) 通过创新的masking策略,用于从无标签的imagery重提取visual features。尽管它成功了,还有两个主要的限制:I-JEPA中使用的EMA无法有效阻止模型特征表征的完全崩溃,它的预测在准确学习patch representations的mean方面也存在不足。本文引入了一个新的框架,称之为C-JEPA(Contrastive-JEPA),将Image-based Joint-Embedding Predictive Architecture和Variance-Invariance-Covariance Regularization(VICReg)策略集成到一起,这个结合用于高效地学习variance/covariance,用于阻止整个的崩溃和确保augmented views的mean的invariance,克服了这些局限。
  1. 无监督表征学习取得了remarkable的进展,主要由于创新架构的进步和利用无标注图像的策略,在这些进展中,Joint-Embedding Predictive Architecture是一个很强的方法,I-JEPA利用掩码策略,来提取visual features,在理解和而利用无标签数据上取得了进步,然而,尽管它成功了,但是JEPA框架还是有一些局限,主要是它的EMA和I-JEPA的prediction的能力,具体地,I-JEPA EMA被发现,在阻止整个的崩溃上是不够的,同时I-JEPA的Prediction机制很难精确地学习patch representations的mean,这些挑战没有阻止JEPA的性能,同时限制了它在broader contexts中的应用。 为了解决这些局限,作者引入了一个新的contrastive SSL框架,基于JEPA,称之为C-JEPA,通过引入VICReg,旨在解决这些挑战,VICReg的方法擅长学习variance和covariance,阻止整个的崩溃和augmented views的mean的invariance,通过将Image-based JEPA和VICReg结合,C-JEPA用于实现更快和更好的收敛,在本文中,作者旨在详细说明理论基础和经验验证,能够证明C-JEPA超过了之前的SSL方法。

    作者的贡献是多样的和重要的,首先,作者发现并说明了I-JEPA框架的内在局限性,主要是它的EMA和prediction机制,其次,作者提出了C-JEPA框架作为一个新的解决方法,将JEPA和VICReg进行合成,解决了这些局限性,第三,通过严格的经验和理论验证,作者展示了, C-JEPA不仅缓解了这些问题,同时是心啊了更好的性能。

  2. 在自监督学习中,研究人员旨在利用数据的内在特性,利用一个代理任务来训练模型。最近,Tian等人提出了一种基于数据增强的无监督学习框架,用于生成有效的视图,并旨在降低不同视图之间的互信息。CMC引入了一个multi-view的contrastive learning框架,用任意数量的views来学习view-agnostic representations。另外一个解决jigsaw puzzles的代理任务在PIRL中得到了发展,来提高learned image representations的语义质量,实现比监督预训练更好的object detection results。最近,Masked Image modeling在很多工作中被探索了,给定对应的unmasked counterpart,来重建image patch,一些MIM方法设计了customized masking策略作为代理任务,例如,block-wise maskign在BEiT中引入了,通过恢复masked image patches的离散的tokens,来学习transferrable visual representations。MAE直接重建75% masked patches的像素,SimMIM用要给大的square patch size来随机mask input image,用one-layer prediction layer after the encoder来预测raw pixels的RGB values,其它的研究人员开始利用teacher network或者对抗学习来产生mask和supervision target。

    • Contrastive learning: **在过去,对比学习在SSL中展示出了它的有效性,instance-wise contrastive learning的主要的idea是缩小相同instance的different views的embedding的距离,同时增大不同instances的views的embeddings的距离。一个常用的方法是用一个large batch size来积累positive和negative pairs。Chen等人提出了一个简单的框架,用一个可学习的nonlinear projection head和一个大的batch size,来提高预训练representations的质量,为了更好地利用大量无标注数据,他们展示了一个更大的预训练网络,用无标注数据引入了distillation,来提高下游任务的性能,BOYL从一个image增强的view中的训练online network,来预测同一个image不同的augmented view的target network representation。另外一个广泛使用的方式是学习一个momentum encoder,从一个大的和持续的dictionary中更新的negative instances,这个动态的dictionary和一个moving-averaged encoder一起在MoCo中使用,来构建一个动态的dictionary,更新negative instances,VICReg正则化策略的提出,通过variance和covariance约束,来解决SSL中的缺点。
  3. 作者提出了一个新的masked modeling 框架,作者的主要idea是将VICReg集成到JEPA框架中,来避免整个的model collapse,提高相同image,不同views的invariance。

    • 给定一个图像数据集,作者的目标是学习一个神经网络,来从这些visual samples中提取无监督的representations。
    • I-JEPA利用神经网络作为一个context encoder,a pair of neural network作为target encoder,一个predictor用于从M masked block patches中的预测target representations,对于target block \(b_{y_i}\),predictor将context encoder的输出和每个patch的mask token作为输入,进行预测,输出patch-level prediction,masking objective通过利用 predicted patch-level representation和target patch-level representation之间的平均 \(L_2\) 距离进行优化,

    \[\mathcal{L}_{\text{I-JEPA}} = \frac{1}{|M|} \sum_{i=1}^{M} \sum_{j \in \mathcal{B}_i} ||\hat{\mathbf{b}}_y - \mathbf{b}_y||_2^2,\] \(|M|\) 表示target blocks M的总数, \(B_i\) 是对应于i-th target block的产生的mask。

    • 对于对比学习,SimSiam尝试得到两个augmented views \(x_i\)\(x`_i\),将两个views给到a pair of neural networks,为了学习相同image的两个不同views的invariance,一个prediciton MLP head,将其中一个view的输出进行变换,将其和另一个view的representation进行匹配。SimSiam的整体的objective是最小化相同image中的所有随机patches的z和p之间的距离,

    \[\mathcal{L}_{\text{SimSiam}} = \frac{1}{|V|} \sum_{i=1}^{V} \sum_{j \in \mathcal{P}_i} ||\mathbf{z}_{r_j} - \mathbf{P}_{r_j}||_2^2,\]

    \(|V|\) 表示augmented views V的总数,\(P_i\) 是对应于i-th view的所有随机的patches。

    • VICReg:为了防止在孪生网络架构中出现编码器输出恒定或无信息量的向量(即“表示崩溃”)的问题,VICReg在不变性项的基础上,引入了基于表示空间的方差和协方差正则化项。首先, 首先,方差正则化项 \(v\) 被定义为嵌入向量 z 在批次维度 n 上的标准差的一个 hinge 函数,目的是防止所有嵌入向量映射到同一个向量而导致的表示崩溃。

    协方差正则化项 c 通过最小化相关矩阵 C 在批次维度上所有非对角元素的平方和,来促使这些非对角元素接近于 0

  4. 在自监督中,I-JEPA和SimSiam框架旨在从images中提取robust representations,他们用不同的架构和objectives来解决这个问题,这里,作者用他们不同的方法,来增强joint-embedding架构的理解。 关于这个理论连接, I-JEPA用一个predictive model,encoder和preidctor network一起来预测input的masked parts,相反,SimSiam不需要显式的masking,利用相同image的dual augmentations来enforce不同的processed views之间的一致性。这些model遵循共同的原则:最小化certain representations的distance,I-JEPA关注预测和实际的masked patch representations之间的distance,然而, SimSiam最小化相同image的two augmented views之间的距离.

  5. VICReg引入了variance和covariance正则化,防止Siamese网络中的representations的崩溃,确保模型在不同的维度上学习informative 和diverse features。VICReg的variance正则化确保embedding space的所有维度包含meaningful variance,这对于阻止model collapse到trivial solutions是重要的,I-JEPA,旨在学习diverse patch representations,能够从这个机制中获益,确保每个masked patch能够对整体的representation提供信息,通过最小化covariance 矩阵的off-diagonal elements,VICReg鼓励features是不相关的,增强学习到的features的多样性,这对于I-JEPA是有益的,diverse patch predictions对于有效的representation learning是重要的,一些non-contrastive SSL上的研究表明:隐式地variance 正则化,能够促进joint-embedding 架构学习dynamics,这样的正则化帮助保持学习到的representations的similarity和diversity之间的平衡。

Illustration \(Fig.1^{[1]}\) I-JEPA和SimSiam