DiT
Scalable Diffusion Models with Transformers
作者是来自UC Berkeley的William Peebles和NYU的Saining Xie。论文引用[1]:Peebles, William S. and Saining Xie. “Scalable Diffusion Models with Transformers.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 4172-4182.
### Time
Key Words
- Diffusion Model
总结
作者探索了基于Transformer的一种新的diffusion model, 作者训练image的latent diffusion model,用transformer代替常用的U-Net的backbone,在latent patches上进行操作。作者通过前向传播复杂度(以Gflops)为指标,分析了Diffusion Transformer的可扩展性。作者发现,通过增加Transformer的深度/宽度,或增加输入tokens的数量,从而提高Gflops的DiTs,始终具有更低的FID分数,除了具备良好的可扩展性之外,最大的DiT-XL/2 models在ImageNet数据集上超过了所有的diffusion models