RAE
Diffusion Transformers with Representation Autoencoders[1]
作者是来自NYU的Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie。论文引用[1]:
Time
- 2025.10
### Key Words
总结
潜在生成建模,一个预训练的autoencoder将pixels映射到一个latent space用于diffusion process,已经成为DiT的标准的策略;然而,Autoencoder的component很少有进展。大多谁的DiT还是依赖于原始的VAE encoder,会导致一些局限。过时的backbones会损害架构的简洁性,低维的latent space限制了信息容量,来自purely-reconstruction-based的training的weak representation限制了生成的质量。在这个工作中,作者探索用预训练的representation encoders和trained decoders赖代替VAE,得到了Representation Autoencoders(RAEs)。这些models提供了高质量的reconstructions和语义丰富的latent spaces,同时允许一个scalable的transformer-based architecture。因为这些latent space通常都是高维的,一个关键的挑战是使得diffusion transformer能够有效地operate。作者分析了这些困难的source,提出了motivated solutions,并进行了验证。作者的方法实现了更快地收敛,不需要辅助的representation alighment loss。用一个DiT变体,加上轻量的、wide的DDT head,实现了更强的image generation。
生成式模型的发展是由不断地重新定义模型在哪里、如何学习represent data 推动的。早期的pixel-space models尝试capture image statistics,但是latent diffusion讲generation重新构造为一个在learned, compact representation space中的process操作。通过在**这个latent space,而不是raw pixel中操作,像Latent Diffusion Models和DIffusion Transformers这样的model,显示了更高的visual fidelity和efficiency,支撑了今天最强大的image和video generators。
尽管diffusion backbones有进步,定义latent space的autoencoder还没有改变,广泛使用地SD-VAE仍然依赖于channel-wise compression和一个reconstruction-only objective,产生了low-capactity的latent,capture局部的appearance,缺乏对于泛化和生成性能重要的全局语义结构,另外,SD-VAE建立于legacy convolution design,仍然是计算不高效。同时,visual representation learning经历了一个快速的变换。自监督和多模态的encoders例如DINO、MAE、JEPA,CLIP/SigLIP能够学习语义结构的visual features,能够在tasks和scales上进行泛化,为visual understanding提供了一个natural basis。然而,latent diffusion仍然是在这个proces中鼓励的,仍然是在reconstruction-trained VAE space中,而不是语义有意义的representational ones。近期的工作尝试通过REPA-style和external encoders的对齐,来间接提高latent quality,但是这些方法引入了额外的training stages, auxiliary losses和微调复杂性。
这个separation源自于长期的关于语义和生成目标之间的不兼容的假设。广泛地相信,训练的encoders不适合faithful reconstruction,因为它们关注high-level information,仅能够重建image with high-level semantic similarities。另外,一般相信diffiusion model在high-dimensional latent spaces中表现较差,导致大家支持低维的VAE latents,恶如不是更高维的semantic encoders的representation。在这个工作中,作者展示了这些assumptions都是错误的。作者展示了,冻结representation encoders,即使在reconstruction上显著地对语义进行优化的,可以repurpose为powerful autoencoders用于generation,不需要架构的复杂或者额外的损失,能够超越SD-VAE。另外,作者发现,diffusion transformer训练在这些高维空间中是稳定和高效的。有了正确的架构的调整,更高维度的representation不是liablity,恶如是一个优势,提供了更丰富的结构,更快地收敛和更好的生成质量。注意到,更高维度的latents引入了no extra compute或者memory cost,因为token count 是固定的。
作者将这个insight