Sigmoid Loss for Language Image Pre-Training[1]

作者是来自DeepMind的Xiaohua Zhai等人,论文引用[1]:Zhai, Xiaohua et al. “Sigmoid Loss for Language Image Pre-Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 11941-11952.

Time

  • 2023.Mar

Key Words

  • sigmoid loss

总结

  1. 作者提出了一个简单的pairwise Sigmoid loss for Language-Image Pre-training(SigLIP),不同于标准的,用softmax normalization的contrastive learning,sigmoid loss仅对image-text pairs进行操作,不需要pairwise similarity for normalization的global view,这个sigmoid loss同时能够进一步scaling up batch sizes,和Locked-image tuning结合,只需要TPUv4 chips,作者训了一个SigLiT model,在ImageNet上 zero-shot,实现了84.5%的精度,将批量大小与损失函数解耦后,得以进一步研究样本与样本对的影响,以及负样本与正样本比例的作用。最后,作者将batch size设到一个极限,up to one million,发现增大的batch size的benefits的下降了,合理的batch size设为32k是足够了。
阅读全文 »

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale[1]

作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin et al. “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 19358-19369.

Time

  • 2022.Dec

Key Words

  • masked out image-text aligned vision features
  • CLIP
  • MIM

总结

  1. 作者提出了EVA,是一个vision-centric的foundation model,仅用公开的数据,来探索大规模visual representation的极限。EVA是一个普通的ViT,预训练用来重建masked out image-text aligned vision features conditioned on visible image patches。通过这个代理任务,可以有效地scale up EVA到1B参数,在多个代表性的下游任务上创造了新的记录,另外,在扩展EVA时,量变会引发迁移学习性能的质变,这种现象在其他模型中并不存在。例如,在极具挑战性的大规模词汇实例分割任务中,EVA实现了跨越式突破:作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上,均达到了接近最先进的性能水平。除了一个pure vision encoder,EVA也可以作为一个vision-centric, 多模态的pivot,来连接images和text,作者发现,通过使用EVA初始化giant CLIP model的视觉分支,不仅能显著提升训练稳定性,还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling up和加速多模态foundation models的方向。

    阅读全文 »

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control[1]

作者是来自Physical Intelligence的Kevin Black 等人。论文引用[1]:Black, Kevin et al. “π0: A Vision-Language-Action Flow Model for General Robot Control.” ArXiv abs/2410.24164 (2024): n. pag.

Time

  • 2024.Nov

Key Words

  • flow matching
  • 一句话:作者的robot policy用了一个预训练的VLM backbone,还有多个embodiment dataset,通过增加一个单独的action expert来做roboto control,通过flow matching产生连续的actions,使得能够实现精确和丝滑的控制,model可以基于prompt,执行tasks,或者在高质量的data上进行微调,实现复杂的多阶段的任务,例如折叠多个衣服

总结

  1. Robot Learning有很大的前景,解锁灵活、通用和熟练的机器人系统的全部潜力,还能解决AI中的一些最深的问题。然而,将robot learning带到一个有效的real-world systems的要求的通用能力的水平面临一些数据、泛化性和鲁棒性方面的挑战。在本文中,作者讨论了通用的机器人策略(generalist robot policies)如何解决这些挑战,以及作者如何涉及有效的generalist robot policies for complex和highly dexterous tasks。作者提出了一个新的flow matching 架构,建立在一个预训练的VLM基础之上,继承了internet-scale语义信息,作者然后讨论这个model是如何在一个来自多个robot platforms、包括单臂、双臂和移动manipulators上的数据集上进行训练的。作者将从模型通过直接prompting执行任务的能力、遵循人类语言指令的能力,以及遵循高层次VLM策略指令、和通过微调得到新的skills的能力这几个方面来评估我们的模型。

    阅读全文 »

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models[1]

作者主要是来自华科的Jingfeng Yao等人。论文引用[1]:

Time

  • 2025.Mar

Key Words

  • aligned latent space with visual tokenizers

总结

  1. 用Transformer架构的Latent diffusion models擅长生成高质量的images,然而,最近的研究表明了这个两阶段设计的优化困境:增加visual tokenizers中的per-token feature dimension的时候,提高了reconstruction 的质量,它需要很大的diffusion models何更多的training iterations来实现相当的生成性能。因此,现有的systems经常遇到次优化的解决方式,要么是由于tokenizer的information loss造成的visual artifacts,要么是由于大量的计算导致难以收敛,作者argue,这个dilemma源于学习没有约束的高维latent spaces的困难,为了解决这个,作者提出了,当训练visual tokenizers的时候,将latent space和预训练的vision foundation models进行对齐。作者提出了VA-VAE(Vision foundation model Aligned VAE),极大地扩展了latent diffusion models的reconstruction-generation 的边界,使得DiTs在高维latent spaces快速收敛,为了利用VA-VAE的全部的potential,作者构建了一个增强版的DiT,用了改进的训练策略和架构设计,称之为LightningDiT。

    阅读全文 »

Scalable Diffusion Models with Transformers

作者是来自UC Berkeley的William Peebles和NYU的Saining Xie。论文引用[1]:Peebles, William S. and Saining Xie. “Scalable Diffusion Models with Transformers.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 4172-4182.

Time

  • 2023.Mar

Key Words

  • Diffusion Model

总结

  1. 作者探索了基于Transformer的一种新的diffusion model, 作者训练image的latent diffusion model,用transformer代替常用的U-Net的backbone,在latent patches上进行操作。作者通过前向传播复杂度(以Gflops)为指标,分析了Diffusion Transformer的可扩展性。作者发现,通过增加Transformer的深度/宽度,或增加输入tokens的数量,从而提高Gflops的DiTs,始终具有更低的FID分数,除了具备良好的可扩展性之外,最大的DiT-XL/2 models在ImageNet数据集上超过了所有的diffusion models

    阅读全文 »

LaVin-DiT: Large Vision Diffusion Transformer[1]

作者是来自悉尼大学、NUS等机构的Zhaoqing Wang等人。论文引用[1]:Wang, Zhaoqing et al. “LaVin-DiT: Large Vision Diffusion Transformer.” ArXiv abs/2411.11505 (2024): n. pag.

Time

  • 2025.Mar

Key Words

  • Diffusion Transformer
  • 将ST-VAE 和Diffusion transformer结合起来,有效地处理高维vision data,通过in-context learning, LaVin-ViT能够适应多个tasks不需要fine-tuning。

总结

  1. 本文提出了Large Vision Diffusion Transformer(LaVin-DiT),是一个可扩展的、统一的foundation model,以generative框架的形式,处理超过20种cv tasks,不同于现有的large vision models,它们直接从NLP的架构修改而来,很少依赖于高效的自回归方式,扰乱了对于vision data很重要的spatial relationships。LaVin-DiT引入了key innovations来优化generative performance for CV tasks,首先:为了解决visual data的高维问题,作者引入了一个spatial-temporal variational autoencoder,将data编码到一个连续的latent space;其次,对于generative modeling,作者开发了一个joint diffusion transformer,能够progressively 产生vision outputs;第三,对于统一的多任务训练,执行in-context learning,input-target pairs作为task context,指导diffusion transformer在latent space中,将outputs和specific tasks进行对齐,在推理的时候,一个task-specific context set和test data作为queries,使得LaVin-DiT不需要fine-tune就能泛化到多个tasks,在大量的vision datasets上训练,这个model从0.1B扩展到3.4B,展示出了scalability和SOTA的性能

    阅读全文 »

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks[1]

作者是来自华科的Xingkui Zhu等人。论文引用[1]:Zhu, Xingkui et al. “MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks.” ArXiv abs/2406.04801 (2024): n. pag.

Time

  • 2024.Jun

Key Words

  • pretrained dense checkpoints
  • SpheroMoE
  • 一句话总结:作者利用预训练的dense weights来初始化MoE models,将dense model的MLPs划分成多个experts,确保expert的多样性和适用性,同时,为了进行微调,提出了SpheroMoE layer,提出了一些改进来避免expert的over-specialized

总结

  1. 稀疏的激活的MoE相对于密集激活的models,提供了一个有效的alternative,将提高的精度和计算效率进行结合。然而,从零开始训练MoE要求大量的data和计算资源,限制了它们的广泛采用。为了解决这个问题,作者引入了MoE Jetpack,一个旨在将丰富且现成可获取的密集checkpoints微调为专家混合(MoE)模型的框架。MoE Jetpack引入了两个key techniques:(1). checkpoint recycling,用dense checkpoints对MoE models进行初始化,来加速收敛和增强精度。减小对大规模预训练的需求; (2). hyper-spherical adaptive MoE(SpheroMoE) layers,优化MoE的架构,来增强微调的性能和效率
阅读全文 »

Decoupled Kullback-Leibler Divergence Loss[1]

作者是来自NTU、CUHK等机构的Jiequan Cui等人,论文引用[1]:Cui, Jiequan et al. “Decoupled Kullback-Leibler Divergence Loss.” ArXiv abs/2305.13948 (2023): n. pag.

Time

  • 2024.Oct

Key Words

  • breaking asymmetric optimization property
  • inserting class-wise global information to mitigate sample-wise bias
  • KL loss在反向传播上等价于DKL loss

总结

  1. 在本文中,作者深入研究了KL散度损失,数学上证明了它等价于Decoupled Kullback-Leibler(DKL) Divergence loss, DKL包含一个weighted Mean Square Error(wMSE) loss和一个引入了soft labels交叉熵损失。多亏了DKL loss的decomposed formulation,作者有两方面的改进,首先,通过打破它的非对称优化的特点,解决了KL/DKL在像知识蒸馏等场景的局限。这个修改确保了wMSE在训练的时候总是有效的,提供了额外的constructive cues。其次,作者引入了class-wise global information,来缓解来自个体岩本的bias。有了这两个提高,作者推出了Improved Kullback-Leibler Divergence Loss (IKL)。

    阅读全文 »

DenoiseRep: Denoising Model for Representation Learning[1]

论文引用[1]:作者是来自北交大的Zhengrui Xu等人。论文引用[1]:Xu, Zhengrui et al. “DenoiseRep: Denoising Model for Representation Learning.” Neural Information Processing Systems (2024).

Time

  • 2024.Nov

Key Words

  • 将来自生成任务中的denoising process集成到判别式任务中
  • 一句话总结:用embedding layers输出的features,对齐进行denoising 操作,训练denoising layers,推理的时候,将denoising layers的参数和embedding layers的参数进行融合,得到最终的输出,思路挺好

总结

  1. denosing model被证明是一个很强的生成model,但是很少用来做discriminative tasks。representation learning再discriminative tasks中是重要的。本文中,作者提出了新的Denoising model用于representation learning,通过联合feature extraction和denoising来提高feature discrimination,DenoiseRep将backbone中的每个embedding layer 视为一个denoising layer,处理cascaded embedding layers,就像step-by-step denoising features一样。这个框架统一了feature extraction和denoising,前者progressively将low-lelel的features嵌入到high-level,后者step-by-step 对feautures进行denoising。之后,DenoiseRep融合feature extraction和denoising layers的参数,理论上表明了融合之前和之后的等效性,使得feature denoising 是computation-free的,使得feature denoising无需额外计算。DenoiseRep是一个label-free的算法,提高了features,但也和label互补。
阅读全文 »

Masked Pre-training Enables Universal Zero-shot Denoiser[1]

作者是来自中科大和上海AI Lab的Xiaoxiao Ma等人,论文引用[1]:Ma, Xiaoxiao et al. “Masked Pre-training Enables Universal Zero-shot Denoiser.” Neural Information Processing Systems (2024).

Time

  • 2024.April

Key Words

  • masked pre-training

总结

  1. 作者观察到:通过masking 策略,在大量images上训练的model,很自然地和distribution knowledge进行了嵌入,然后同时获得了strong image denoising的潜力,基于这个观察,作者提出了新的zero-shot denoising范式,Masked Pre-train then Iterative fill(MPI), MPI首先通过masking训练model,然后采用预训练权重,在单个noisy image上,进行高质量的zero-shot image denoising。具体来说包括两个步骤:1.Masked Pre-training 涉及对大量的随机masking的图像进行重构,来训练model,以此来获得通用的表征,得到不同noise degradation甚至图像类型不同的image的上的zero-shot denoising的潜力. 2. Iterative Fill 探索了pretrained knowledge,用于有效地zero-shot denoising,通过利用pre-trained weights,来iteratively优化image,聚焦于交替重构不同的image parts,然后在有限的次数内,合成完整的denoised image
阅读全文 »
0%