VA-VAE
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models[1]
作者主要是来自华科的Jingfeng Yao等人。论文引用[1]:
Time
- 2025.Mar
Key Words
- aligned latent space with visual tokenizers
总结
用Transformer架构的Latent diffusion models擅长生成高质量的images,然而,最近的研究表明了这个两阶段设计的优化困境:增加visual tokenizers中的per-token feature dimension的时候,提高了reconstruction 的质量,它需要很大的diffusion models何更多的training iterations来实现相当的生成性能。因此,现有的systems经常遇到次优化的解决方式,要么是由于tokenizer的information loss造成的visual artifacts,要么是由于大量的计算导致难以收敛,作者argue,这个dilemma源于学习没有约束的高维latent spaces的困难,为了解决这个,作者提出了,当训练visual tokenizers的时候,将latent space和预训练的vision foundation models进行对齐。作者提出了VA-VAE(Vision foundation model Aligned VAE),极大地扩展了latent diffusion models的reconstruction-generation 的边界,使得DiTs在高维latent spaces快速收敛,为了利用VA-VAE的全部的potential,作者构建了一个增强版的DiT,用了改进的训练策略和架构设计,称之为LightningDiT。