Scalable Diffusion Models with Transformers

作者是来自UC Berkeley的William Peebles和NYU的Saining Xie。论文引用[1]:Peebles, William S. and Saining Xie. “Scalable Diffusion Models with Transformers.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 4172-4182.

### Time

Key Words

  • Diffusion Model

总结

  1. 作者探索了基于Transformer的一种新的diffusion model, 作者训练image的latent diffusion model,用transformer代替常用的U-Net的backbone,在latent patches上进行操作。作者通过前向传播复杂度(以Gflops)为指标,分析了Diffusion Transformer的可扩展性。作者发现,通过增加Transformer的深度/宽度,或增加输入tokens的数量,从而提高Gflops的DiTs,始终具有更低的FID分数,除了具备良好的可扩展性之外,最大的DiT-XL/2 models在ImageNet数据集上超过了所有的diffusion models

    阅读全文 »

LaVin-DiT: Large Vision Diffusion Transformer[1]

作者是来自悉尼大学、NUS等机构的Zhaoqing Wang等人。论文引用[1]:Wang, Zhaoqing et al. “LaVin-DiT: Large Vision Diffusion Transformer.” ArXiv abs/2411.11505 (2024): n. pag.

Time

  • 2025.Mar

Key Words

  • Diffusion Transformer
  • 将ST-VAE 和Diffusion transformer结合起来,有效地处理高维vision data,通过in-context learning, LaVin-ViT能够适应多个tasks不需要fine-tuning。

总结

  1. 本文提出了Large Vision Diffusion Transformer(LaVin-DiT),是一个可扩展的、统一的foundation model,以generative框架的形式,处理超过20种cv tasks,不同于现有的large vision models,它们直接从NLP的架构修改而来,很少依赖于高效的自回归方式,扰乱了对于vision data很重要的spatial relationships。LaVin-DiT引入了key innovations来优化generative performance for CV tasks,首先:为了解决visual data的高维问题,作者引入了一个spatial-temporal variational autoencoder,将data编码到一个连续的latent space;其次,对于generative modeling,作者开发了一个joint diffusion transformer,能够progressively 产生vision outputs;第三,对于统一的多任务训练,执行in-context learning,input-target pairs作为task context,指导diffusion transformer在latent space中,将outputs和specific tasks进行对齐,在推理的时候,一个task-specific context set和test data作为queries,使得LaVin-DiT不需要fine-tune就能泛化到多个tasks,在大量的vision datasets上训练,这个model从0.1B扩展到3.4B,展示出了scalability和SOTA的性能

    阅读全文 »

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks[1]

作者是来自华科的Xingkui Zhu等人。论文引用[1]:Zhu, Xingkui et al. “MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks.” ArXiv abs/2406.04801 (2024): n. pag.

Time

  • 2024.Jun ### Key Words
  • pretrained dense checkpoints
  • SpheroMoE
  • 一句话总结:作者利用预训练的dense weights来初始化MoE models,将dense model的MLPs划分成多个experts,确保expert的多样性和适用性,同时,为了进行微调,提出了SpheroMoE layer,提出了一些改进来避免expert的over-specialized

总结

  1. 稀疏的激活的MoE相对于密集激活的models,提供了一个有效的alternative,将提高的精度和计算效率进行结合。然而,从零开始训练MoE要求大量的data和计算资源,限制了它们的广泛采用。为了解决这个问题,作者引入了MoE Jetpack,一个旨在将丰富且现成可获取的密集checkpoints微调为专家混合(MoE)模型的框架。MoE Jetpack引入了两个key techniques:(1). checkpoint recycling,用dense checkpoints对MoE models进行初始化,来加速收敛和增强精度。减小对大规模预训练的需求; (2). hyper-spherical adaptive MoE(SpheroMoE) layers,优化MoE的架构,来增强微调的性能和效率

    阅读全文 »

Decoupled Kullback-Leibler Divergence Loss[1]

作者是来自NTU、CUHK等机构的Jiequan Cui等人,论文引用[1]:Cui, Jiequan et al. “Decoupled Kullback-Leibler Divergence Loss.” ArXiv abs/2305.13948 (2023): n. pag.

Time

  • 2024.Oct

Key Words

  • breaking asymmetric optimization property
  • inserting class-wise global information to mitigate sample-wise bias
  • KL loss在反向传播上等价于DKL loss

总结

  1. 在本文中,作者深入研究了KL散度损失,数学上证明了它等价于Decoupled Kullback-Leibler(DKL) Divergence loss, DKL包含一个weighted Mean Square Error(wMSE) loss和一个引入了soft labels交叉熵损失。多亏了DKL loss的decomposed formulation,作者有两方面的改进,首先,通过打破它的非对称优化的特点,解决了KL/DKL在像知识蒸馏等场景的局限。这个修改确保了wMSE在训练的时候总是有效的,提供了额外的constructive cues。其次,作者引入了class-wise global information,来缓解来自个体岩本的bias。有了这两个提高,作者推出了Improved Kullback-Leibler Divergence Loss (IKL)。

    阅读全文 »

DenoiseRep: Denoising Model for Representation Learning[1]

论文引用[1]:作者是来自北交大的Zhengrui Xu等人。论文引用[1]:Xu, Zhengrui et al. “DenoiseRep: Denoising Model for Representation Learning.” Neural Information Processing Systems (2024).

Time

  • 2024.Nov

Key Words

  • 将来自生成任务中的denoising process集成到判别式任务中
  • 一句话总结:用embedding layers输出的features,对齐进行denoising 操作,训练denoising layers,推理的时候,将denoising layers的参数和embedding layers的参数进行融合,得到最终的输出,思路挺好

总结

  1. denosing model被证明是一个很强的生成model,但是很少用来做discriminative tasks。representation learning再discriminative tasks中是重要的。本文中,作者提出了新的Denoising model用于representation learning,通过联合feature extraction和denoising来提高feature discrimination,DenoiseRep将backbone中的每个embedding layer 视为一个denoising layer,处理cascaded embedding layers,就像step-by-step denoising features一样。这个框架统一了feature extraction和denoising,前者progressively将low-lelel的features嵌入到high-level,后者step-by-step 对feautures进行denoising。之后,DenoiseRep融合feature extraction和denoising layers的参数,理论上表明了融合之前和之后的等效性,使得feature denoising 是computation-free的,使得feature denoising无需额外计算。DenoiseRep是一个label-free的算法,提高了features,但也和label互补。
阅读全文 »

Masked Pre-training Enables Universal Zero-shot Denoiser[1]

作者是来自中科大和上海AI Lab的Xiaoxiao Ma等人,论文引用[1]:Ma, Xiaoxiao et al. “Masked Pre-training Enables Universal Zero-shot Denoiser.” Neural Information Processing Systems (2024).

Time

  • 2024.April

Key Words

  • masked pre-training

总结

  1. 作者观察到:通过masking 策略,在大量images上训练的model,很自然地和distribution knowledge进行了嵌入,然后同时获得了strong image denoising的潜力,基于这个观察,作者提出了新的zero-shot denoising范式,Masked Pre-train then Iterative fill(MPI), MPI首先通过masking训练model,然后采用预训练权重,在单个noisy image上,进行高质量的zero-shot image denoising。具体来说包括两个步骤:1.Masked Pre-training 涉及对大量的随机masking的图像进行重构,来训练model,以此来获得通用的表征,得到不同noise degradation甚至图像类型不同的image的上的zero-shot denoising的潜力. 2. Iterative Fill 探索了pretrained knowledge,用于有效地zero-shot denoising,通过利用pre-trained weights,来iteratively优化image,聚焦于交替重构不同的image parts,然后在有限的次数内,合成完整的denoised image
阅读全文 »

Multi-Head Mixture-of-Experts[1]

作者是来自MSRA的Xun Wu等人,论文引用[1]:Wu, Xun et al. “Multi-Head Mixture-of-Experts.” ArXiv abs/2404.15045 (2024): n. pag.

Time

-2024.Apr

Key Words

  • low expert activation
  • multi-head
  • 一句话总结:类似多头注意力的操作,将输入分成多给sub-tokens,每个sub-tokens给到experts,最后将所有的输出在进行merge,还原为初始的形状,每个sub-tokens包含了不同feature space的语义信息

总结:

  1. **稀疏MoE在不增加计算成本的情况下,扩展了model的capacity,然而,它展示出了low expert activation的问题,仅有一小部分experts被激活,用于优化,导致suboptimal的性能,限制了在复杂任务中学习大量experts的有效性。在本文中,作者提出了Multi-MoE,MHMoE将每个输入的token或分成多个sub-tokens,然后这些sub-tokens被分配给多个并行的experts进行处理,无缝合成为原来的token form。以上的操作使得MH-MoE显著地提高了expert的activation,同时在不同的experts汇总,集体attend to 多个representation spaces,来加深context understanding,另外,值得注意地是: MH-MoE直接可以执行,和其它的SMoE框架解耦,使得很容易地和这些框架集成。
阅读全文 »

Self-Guided Masked Autoencoder[1]

作者是来自Google和首尔国立大学的Jeongwoo Shin等人,论文引用[1]:Shin, Jeongwoo et al. “Self-Guided Masked Autoencoder.” Neural Information Processing Systems (2024).

Time

Key Words

  • Masked Autoencoder

总结

  1. MAE是用于表征学习的一种自监督的方式,广泛地应用于CV中的下游任务。尽管它很成功,但是,但还是没有完全揭示它是如何学习的。在本文中,作者做了深入的分析,发现:MAE从pretraining早期阶段,学习patern-based patch-level clustering。基于这个理解:作者提出了self-guided masked autoencoder,通过利用patch clustering中的progress,内在地产生informed mask,代替原始的MAE的随机的masking,作者的方法不需要依赖任何外部的models或者supplementary information,显著地提高了它的learning progress,完好地保持了MAE自监督的本质的优势。
阅读全文 »

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models[1]

作者是来自中山大学、阿里等机构的Shenghao Fu等人,论文引用[1]:

Time

  • 2025.Mar

### Key Words

总结

Mr.DETR: Instructive Multi-Route Training for Detection Transformers[1]>

作者是来自Visual AI Lab、HKU和Meituan的Chang-Bin Zhang等人。论文引用[1]:Zhang, Chang-Bin et al. “Mr. DETR: Instructive Multi-Route Training for Detection Transformers.” ArXiv abs/2412.10028 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • one-to-one, one-to-many assignments
  • Multi-route training
  • 一句话总结:为了加速DETR-like model的收敛,一些方法采用了auxiliary training,作者这里提出了multi-training route的方法,用3个route,route-1用一个独立的FFN for o2m, route-2是primary route for o2o, route-3 为了提高不同route的queries的兼容性,采用了learnable queries作为instruction,然后进行instruction self-attention,其它的没啥。

总结

  1. 现有的增强detection transformer的方式是同故宫引入auxiliary one-to-many assignment。在这个工作中,作者将model视为一个multi-task framework,同时进行one-to-one和one-to-many predictions。作者在这两个训练目标中,研究了Transformer decoder中的每个component的作用,包括self-attention, cross-attention和FFN。作者的结果展示,decoder中的任何独立的component能够同时有效地学习targets,即使当一些component是共享的。这个发现促使作者提出了一个multi-route training paradigm, 一个primary route用于one-to-one prediction,两个辅助的training routes用于one-to-many prediction,作者通过一个新的instructive self-attention, 能够动态地和灵活地指导object queries 用于one-to-many prediction,增强training机制。这个辅助的routes在推理的时候是去掉的,确保对model架构和inference cost造成影响
阅读全文 »
0%