DiffiT

DiffiT: Diffusion Vision Transformers for Image Generation[1]

作者是来自NVIDIA的Ali Hatamizadeh等人,论文引用[1]:Hatamizadeh, Ali et al. “DiffiT: Diffusion Vision Transformers for Image Generation.” European Conference on Computer Vision (2023).

Time

  • 2024.Aug

### Key Words

总结

  1. Diffusion models有很强的expressivity和高质量采样,在生成领域实现了SOTA,ViT展示出了很强的modeling capabilities,在本文中,作者研究了ViTs在diffusion-based generative learning中的有效性,提出了一个新的model称之为**Diffusion Vision Transformer(DiffiT), 作者提出了一个用于denoising 过程finegrained control的方法,引入了Time-dependant Multihead Self Attention 机制,DiffiT在生成高保真images上有很好的效果,作者也提出了latent和image spae DiffiT models,在不同的分辨率下,在多个class-conditional和unconditional合成任务中实现了SOTA。
  1. Diffusion models在生成学习领域是革命化的,他们已经实现了生成多样化且复杂的场景,其质量之高是以前的模型难以企及的。diffusion models中的合成是被建模为一个iterative 过程,random image-shaped 高斯噪声逐步去噪,逼近realistic samples。这个过程中的core 是denoising autoencoder network,输入noisy image,预测denoising direction,等价于score function,这个network,在denoising 过程中的不同的time steps是共享的,通常是基于U-Net的变体。 ViT在多个recognition tasks展示出了SOTA,在long-range dependency modeling和scalability上展示了很好的优势,最近,DiT和Masked Diffusion Transformer(MDT)利用了ViT的优势用于diffusion-based image generation。在DiT和MDT中,Adaptive LayerNorm用于input noise conditioning,然而,这个方法显著地增加了参数量,没有有效地建模unique temporal dynamics of the denoising process。特别地,在denoising开始的时候,image的high-frequency content会被干扰,denoising network主要预测低频的内容,在denoising结束的时候,大多数的image structure被生成了,network倾向于预测高频的details,DiT上的conditioning是通过adaLN layers预测的channel-wise scale和shift parameters对输入进行modulate实现的。然而,这个机制不能capture denoising 过程的dynamics,因为它不能有效地建模joint spatial 和temporal dependencies,在这个工作中,作者提出了Time-dependant MultiHead Self-Attention(TMSA),在去噪过程中,能够fine-grained control over spatial 和temporal dependencies,以及interaction。特别地,TMSA提出,将temporal component集成到self-attention中,key, query, value weights在denoising的时候是每个time step都进行调整的,这使得denoising network在不同的stages,通过考虑spatial和temporal components以及correspondense,能够动态地改变它的注意力机制。 另外,采用TMSA能够显著地提高参数效率,因为它在每个block中只学习3个temporal components for query, key and value,对比之下,AdaLN要求学习shift, scale, gate for self-attention,还有MLP,作者也将TMSA扩展成window-based 方法,没有cross-communication among local regions,这个设计很有效,通过降低token sequence length,将i的了self-attention的computational cost。

     作者的贡献如下:
     - 提出了TMSA
     - 引入了一个新的ViT-based diffusion model,统一了denoising network的design patterns,能够在latent和image space用于多个image generation task。