Young's Blog

SigLIP

发表于 2025-06-09 更新于 2025-06-10 分类于 Papers 本文字数： 1.2k 阅读时长 ≈ 4 分钟

Sigmoid Loss for Language Image Pre-Training^[1]

作者是来自DeepMind的Xiaohua Zhai等人，论文引用[1]:Zhai, Xiaohua et al. “Sigmoid Loss for Language Image Pre-Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 11941-11952.

Time

2023.Mar

Key Words

sigmoid loss

总结

作者提出了一个简单的pairwise Sigmoid loss for Language-Image Pre-training(SigLIP)，不同于标准的，用softmax normalization的contrastive learning，sigmoid loss仅对image-text pairs进行操作，不需要pairwise similarity for normalization的global view，这个sigmoid loss同时能够进一步scaling up batch sizes，和Locked-image tuning结合，只需要TPUv4 chips，作者训了一个SigLiT model，在ImageNet上 zero-shot，实现了84.5%的精度，将批量大小与损失函数解耦后，得以进一步研究样本与样本对的影响，以及负样本与正样本比例的作用。最后，作者将batch size设到一个极限，up to one million，发现增大的batch size的benefits的下降了，合理的batch size设为32k是足够了。

阅读全文 »

EVA

发表于 2025-06-09 分类于 Papers 本文字数： 1.6k 阅读时长 ≈ 6 分钟

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale^[1]

作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin et al. “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 19358-19369.

Time

2022.Dec

Key Words

masked out image-text aligned vision features
CLIP
MIM

总结

作者提出了EVA，是一个vision-centric的foundation model，仅用公开的数据，来探索大规模visual representation的极限。EVA是一个普通的ViT，预训练用来重建masked out image-text aligned vision features conditioned on visible image patches。通过这个代理任务，可以有效地scale up EVA到1B参数，在多个代表性的下游任务上创造了新的记录，另外，在扩展EVA时，量变会引发迁移学习性能的质变，这种现象在其他模型中并不存在。例如，在极具挑战性的大规模词汇实例分割任务中，EVA实现了跨越式突破：作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上，均达到了接近最先进的性能水平。除了一个pure vision encoder，EVA也可以作为一个vision-centric, 多模态的pivot，来连接images和text，作者发现，通过使用EVA初始化giant CLIP model的视觉分支，不仅能显著提升训练稳定性，还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling up和加速多模态foundation models的方向。
阅读全文 »

Pi0

发表于 2025-06-08 更新于 2025-06-09 分类于 Papers 本文字数： 4k 阅读时长 ≈ 15 分钟

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control^[1]

作者是来自Physical Intelligence的Kevin Black 等人。论文引用[1]:Black, Kevin et al. “π0: A Vision-Language-Action Flow Model for General Robot Control.” ArXiv abs/2410.24164 (2024): n. pag.

Time

2024.Nov

Key Words

flow matching
一句话：作者的robot policy用了一个预训练的VLM backbone，还有多个embodiment dataset，通过增加一个单独的action expert来做roboto control，通过flow matching产生连续的actions，使得能够实现精确和丝滑的控制，model可以基于prompt，执行tasks，或者在高质量的data上进行微调，实现复杂的多阶段的任务，例如折叠多个衣服。

总结

Robot Learning有很大的前景，解锁灵活、通用和熟练的机器人系统的全部潜力，还能解决AI中的一些最深的问题。然而，将robot learning带到一个有效的real-world systems的要求的通用能力的水平面临一些数据、泛化性和鲁棒性方面的挑战。在本文中，作者讨论了通用的机器人策略(generalist robot policies)如何解决这些挑战，以及作者如何涉及有效的generalist robot policies for complex和highly dexterous tasks。作者提出了一个新的flow matching 架构，建立在一个预训练的VLM基础之上，继承了internet-scale语义信息，作者然后讨论这个model是如何在一个来自多个robot platforms、包括单臂、双臂和移动manipulators上的数据集上进行训练的。作者将从模型通过直接prompting执行任务的能力、遵循人类语言指令的能力，以及遵循高层次VLM策略指令、和通过微调得到新的skills的能力这几个方面来评估我们的模型。
阅读全文 »

VA-VAE

发表于 2025-06-04 更新于 2025-06-10 分类于 Papers 本文字数： 969 阅读时长 ≈ 4 分钟

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models^[1]

作者主要是来自华科的Jingfeng Yao等人。论文引用[1]:

Time

2025.Mar

Key Words

aligned latent space with visual tokenizers

总结

用Transformer架构的Latent diffusion models擅长生成高质量的images，然而，最近的研究表明了这个两阶段设计的优化困境：增加visual tokenizers中的per-token feature dimension的时候，提高了reconstruction 的质量，它需要很大的diffusion models何更多的training iterations来实现相当的生成性能。因此，现有的systems经常遇到次优化的解决方式，要么是由于tokenizer的information loss造成的visual artifacts，要么是由于大量的计算导致难以收敛，作者argue，这个dilemma源于学习没有约束的高维latent spaces的困难，为了解决这个，作者提出了，当训练visual tokenizers的时候，将latent space和预训练的vision foundation models进行对齐。作者提出了VA-VAE(Vision foundation model Aligned VAE)，极大地扩展了latent diffusion models的reconstruction-generation 的边界，使得DiTs在高维latent spaces快速收敛，为了利用VA-VAE的全部的potential，作者构建了一个增强版的DiT，用了改进的训练策略和架构设计，称之为LightningDiT。
阅读全文 »

DiT

发表于 2025-06-03 更新于 2025-06-10 分类于 Papers 本文字数： 2.2k 阅读时长 ≈ 8 分钟

Scalable Diffusion Models with Transformers

作者是来自UC Berkeley的William Peebles和NYU的Saining Xie。论文引用[1]:Peebles, William S. and Saining Xie. “Scalable Diffusion Models with Transformers.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 4172-4182.

Time

2023.Mar

Key Words

Diffusion Model

总结

作者探索了基于Transformer的一种新的diffusion model, 作者训练image的latent diffusion model，用transformer代替常用的U-Net的backbone，在latent patches上进行操作。作者通过前向传播复杂度(以Gflops)为指标，分析了Diffusion Transformer的可扩展性。作者发现，通过增加Transformer的深度/宽度，或增加输入tokens的数量，从而提高Gflops的DiTs，始终具有更低的FID分数，除了具备良好的可扩展性之外，最大的DiT-XL/2 models在ImageNet数据集上超过了所有的diffusion models
阅读全文 »

LaVin-DiT

发表于 2025-06-02 分类于 Papers 本文字数： 3.5k 阅读时长 ≈ 13 分钟

LaVin-DiT: Large Vision Diffusion Transformer^[1]

作者是来自悉尼大学、NUS等机构的Zhaoqing Wang等人。论文引用[1]:Wang, Zhaoqing et al. “LaVin-DiT: Large Vision Diffusion Transformer.” ArXiv abs/2411.11505 (2024): n. pag.

Time

2025.Mar

Key Words

Diffusion Transformer
将ST-VAE 和Diffusion transformer结合起来，有效地处理高维vision data，通过in-context learning， LaVin-ViT能够适应多个tasks不需要fine-tuning。

总结

本文提出了Large Vision Diffusion Transformer(LaVin-DiT)，是一个可扩展的、统一的foundation model，以generative框架的形式，处理超过20种cv tasks，不同于现有的large vision models，它们直接从NLP的架构修改而来，很少依赖于高效的自回归方式，扰乱了对于vision data很重要的spatial relationships。LaVin-DiT引入了key innovations来优化generative performance for CV tasks，首先：为了解决visual data的高维问题，作者引入了一个spatial-temporal variational autoencoder，将data编码到一个连续的latent space；其次，对于generative modeling，作者开发了一个joint diffusion transformer，能够progressively 产生vision outputs；第三，对于统一的多任务训练，执行in-context learning，input-target pairs作为task context，指导diffusion transformer在latent space中，将outputs和specific tasks进行对齐，在推理的时候，一个task-specific context set和test data作为queries，使得LaVin-DiT不需要fine-tune就能泛化到多个tasks，在大量的vision datasets上训练，这个model从0.1B扩展到3.4B，展示出了scalability和SOTA的性能。
阅读全文 »

Jetpack

发表于 2025-05-26 更新于 2025-06-10 分类于 Papers 本文字数： 3k 阅读时长 ≈ 11 分钟

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks^[1]

作者是来自华科的Xingkui Zhu等人。论文引用[1]:Zhu, Xingkui et al. “MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks.” ArXiv abs/2406.04801 (2024): n. pag.

Time

2024.Jun

Key Words

pretrained dense checkpoints
SpheroMoE
一句话总结：作者利用预训练的dense weights来初始化MoE models，将dense model的MLPs划分成多个experts，确保expert的多样性和适用性，同时，为了进行微调，提出了SpheroMoE layer，提出了一些改进来避免expert的over-specialized。

总结

稀疏的激活的MoE相对于密集激活的models，提供了一个有效的alternative，将提高的精度和计算效率进行结合。然而，从零开始训练MoE要求大量的data和计算资源，限制了它们的广泛采用。为了解决这个问题，作者引入了MoE Jetpack，一个旨在将丰富且现成可获取的密集checkpoints微调为专家混合（MoE）模型的框架。MoE Jetpack引入了两个key techniques：(1). checkpoint recycling，用dense checkpoints对MoE models进行初始化，来加速收敛和增强精度。减小对大规模预训练的需求; (2). hyper-spherical adaptive MoE(SpheroMoE) layers，优化MoE的架构，来增强微调的性能和效率。

阅读全文 »

Decouple KL

发表于 2025-05-21 更新于 2025-05-22 分类于 Papers 本文字数： 2.5k 阅读时长 ≈ 9 分钟

Decoupled Kullback-Leibler Divergence Loss^[1]

作者是来自NTU、CUHK等机构的Jiequan Cui等人，论文引用[1]:Cui, Jiequan et al. “Decoupled Kullback-Leibler Divergence Loss.” ArXiv abs/2305.13948 (2023): n. pag.

Time

2024.Oct

Key Words

breaking asymmetric optimization property
inserting class-wise global information to mitigate sample-wise bias
KL loss在反向传播上等价于DKL loss

总结

在本文中，作者深入研究了KL散度损失，数学上证明了它等价于Decoupled Kullback-Leibler(DKL) Divergence loss, DKL包含一个weighted Mean Square Error(wMSE) loss和一个引入了soft labels交叉熵损失。多亏了DKL loss的decomposed formulation，作者有两方面的改进，首先，通过打破它的非对称优化的特点，解决了KL/DKL在像知识蒸馏等场景的局限。这个修改确保了wMSE在训练的时候总是有效的，提供了额外的constructive cues。其次，作者引入了class-wise global information，来缓解来自个体岩本的bias。有了这两个提高，作者推出了Improved Kullback-Leibler Divergence Loss (IKL)。
阅读全文 »

DenoiseRep

发表于 2025-05-19 更新于 2025-05-21 分类于 Papers 本文字数： 2.3k 阅读时长 ≈ 8 分钟

DenoiseRep: Denoising Model for Representation Learning^[1]

论文引用[1]:作者是来自北交大的Zhengrui Xu等人。论文引用[1]:Xu, Zhengrui et al. “DenoiseRep: Denoising Model for Representation Learning.” Neural Information Processing Systems (2024).

Time

2024.Nov

Key Words

将来自生成任务中的denoising process集成到判别式任务中
一句话总结：用embedding layers输出的features，对齐进行denoising 操作，训练denoising layers，推理的时候，将denoising layers的参数和embedding layers的参数进行融合，得到最终的输出，思路挺好

总结

denosing model被证明是一个很强的生成model，但是很少用来做discriminative tasks。representation learning再discriminative tasks中是重要的。本文中，作者提出了新的Denoising model用于representation learning,通过联合feature extraction和denoising来提高feature discrimination，DenoiseRep将backbone中的每个embedding layer 视为一个denoising layer，处理cascaded embedding layers，就像step-by-step denoising features一样。这个框架统一了feature extraction和denoising，前者progressively将low-lelel的features嵌入到high-level，后者step-by-step 对feautures进行denoising。之后，DenoiseRep融合feature extraction和denoising layers的参数，理论上表明了融合之前和之后的等效性，使得feature denoising 是computation-free的，使得feature denoising无需额外计算。DenoiseRep是一个label-free的算法，提高了features，但也和label互补。

阅读全文 »

MPI

发表于 2025-05-16 更新于 2025-05-19 分类于 Papers 本文字数： 2k 阅读时长 ≈ 7 分钟

Masked Pre-training Enables Universal Zero-shot Denoiser^[1]

作者是来自中科大和上海AI Lab的Xiaoxiao Ma等人，论文引用[1]:Ma, Xiaoxiao et al. “Masked Pre-training Enables Universal Zero-shot Denoiser.” Neural Information Processing Systems (2024).

Time

2024.April

Key Words

masked pre-training

总结

作者观察到：通过masking 策略，在大量images上训练的model，很自然地和distribution knowledge进行了嵌入，然后同时获得了strong image denoising的潜力，基于这个观察，作者提出了新的zero-shot denoising范式，Masked Pre-train then Iterative fill(MPI), MPI首先通过masking训练model，然后采用预训练权重，在单个noisy image上，进行高质量的zero-shot image denoising。具体来说包括两个步骤：1.Masked Pre-training 涉及对大量的随机masking的图像进行重构，来训练model，以此来获得通用的表征，得到不同noise degradation甚至图像类型不同的image的上的zero-shot denoising的潜力. 2. Iterative Fill 探索了pretrained knowledge，用于有效地zero-shot denoising，通过利用pre-trained weights，来iteratively优化image，聚焦于交替重构不同的image parts，然后在有限的次数内，合成完整的denoised image。

阅读全文 »

Sigmoid Loss for Language Image Pre-Training[1]

Time

Key Words

总结

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale[1]

Time

Key Words

总结

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control[1]

Time

Key Words

总结

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models[1]

Time

Key Words

总结

Scalable Diffusion Models with Transformers

Time

Key Words

总结

LaVin-DiT: Large Vision Diffusion Transformer[1]

Time

Key Words

总结

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks[1]

Time

Key Words

总结

Decoupled Kullback-Leibler Divergence Loss[1]

Time

Key Words

总结

DenoiseRep: Denoising Model for Representation Learning[1]

Time

Key Words

总结

Masked Pre-training Enables Universal Zero-shot Denoiser[1]

Time

Key Words

总结

Sigmoid Loss for Language Image Pre-Training^[1]

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale^[1]

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control^[1]

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models^[1]

LaVin-DiT: Large Vision Diffusion Transformer^[1]

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks^[1]

Decoupled Kullback-Leibler Divergence Loss^[1]

DenoiseRep: Denoising Model for Representation Learning^[1]

Masked Pre-training Enables Universal Zero-shot Denoiser^[1]