DiffiT

发表于 2025-06-26 分类于 Papers 阅读次数：本文字数： 778 阅读时长 ≈ 3 分钟

DiffiT: Diffusion Vision Transformers for Image Generation^[1]

作者是来自NVIDIA的Ali Hatamizadeh等人，论文引用[1]:Hatamizadeh, Ali et al. “DiffiT: Diffusion Vision Transformers for Image Generation.” European Conference on Computer Vision (2023).

Time

2024.Aug

### Key Words

总结

Diffusion models有很强的expressivity和高质量采样，在生成领域实现了SOTA，ViT展示出了很强的modeling capabilities，在本文中，作者研究了ViTs在diffusion-based generative learning中的有效性，提出了一个新的model称之为**Diffusion Vision Transformer(DiffiT), 作者提出了一个用于denoising 过程finegrained control的方法，引入了Time-dependant Multihead Self Attention 机制，DiffiT在生成高保真images上有很好的效果，作者也提出了latent和image spae DiffiT models，在不同的分辨率下，在多个class-conditional和unconditional合成任务中实现了SOTA。

Diffusion models在生成学习领域是革命化的，他们已经实现了生成多样化且复杂的场景，其质量之高是以前的模型难以企及的。diffusion models中的合成是被建模为一个iterative 过程，random image-shaped 高斯噪声逐步去噪，逼近realistic samples。这个过程中的core 是denoising autoencoder network，输入noisy image，预测denoising direction，等价于score function，这个network，在denoising 过程中的不同的time steps是共享的，通常是基于U-Net的变体。 ViT在多个recognition tasks展示出了SOTA，在long-range dependency modeling和scalability上展示了很好的优势，最近，DiT和Masked Diffusion Transformer(MDT)利用了ViT的优势用于diffusion-based image generation。在DiT和MDT中，Adaptive LayerNorm用于input noise conditioning，然而，这个方法显著地增加了参数量，没有有效地建模unique temporal dynamics of the denoising process。特别地，在denoising开始的时候，image的high-frequency content会被干扰，denoising network主要预测低频的内容，在denoising结束的时候，大多数的image structure被生成了，network倾向于预测高频的details，DiT上的conditioning是通过adaLN layers预测的channel-wise scale和shift parameters对输入进行modulate实现的。然而，这个机制不能capture denoising 过程的dynamics，因为它不能有效地建模joint spatial 和temporal dependencies，在这个工作中，作者提出了Time-dependant MultiHead Self-Attention(TMSA)，在去噪过程中，能够fine-grained control over spatial 和temporal dependencies，以及interaction。特别地，TMSA提出，将temporal component集成到self-attention中，key, query, value weights在denoising的时候是每个time step都进行调整的，这使得denoising network在不同的stages，通过考虑spatial和temporal components以及correspondense，能够动态地改变它的注意力机制。另外，采用TMSA能够显著地提高参数效率，因为它在每个block中只学习3个temporal components for query, key and value，对比之下，AdaLN要求学习shift, scale, gate for self-attention，还有MLP，作者也将TMSA扩展成window-based 方法，没有cross-communication among local regions，这个设计很有效，通过降低token sequence length，将i的了self-attention的computational cost。
```
 作者的贡献如下：
 - 提出了TMSA
 - 引入了一个新的ViT-based diffusion model，统一了denoising network的design patterns，能够在latent和image space用于多个image generation task。
```

DiffiT: Diffusion Vision Transformers for Image Generation[1]

Time

### Key Words

总结

DiffiT: Diffusion Vision Transformers for Image Generation^[1]