作者是来自NYU的Boyang Zheng, Nanye Ma, Shengbang Tong, Saining
Xie。论文引用[1]:
Time
### Key Words
总结
潜在生成建模,一个预训练的autoencoder将pixels映射到一个latent
space用于diffusion
process,已经成为DiT的标准的策略;然而,Autoencoder的component很少有进展。大多谁的DiT还是依赖于原始的VAE
encoder,会导致一些局限。过时的backbones会损害架构的简洁性,低维的latent
space限制了信息容量,来自purely-reconstruction-based的training的weak
representation限制了生成的质量。在这个工作中,作者探索用预训练的representation
encoders和trained decoders赖代替VAE,得到了Representation
Autoencoders(RAEs)。这些models提供了高质量的reconstructions和语义丰富的latent
spaces,同时允许一个scalable的transformer-based
architecture。因为这些latent
space通常都是高维的,一个关键的挑战是使得diffusion
transformer能够有效地operate。作者分析了这些困难的source,提出了motivated
solutions,并进行了验证。作者的方法实现了更快地收敛,不需要辅助的representation
alighment loss。用一个DiT变体,加上轻量的、wide的DDT
head,实现了更强的image generation。
生成式模型的发展是由不断地重新定义模型在哪里、如何学习represent
data 推动的。早期的pixel-space models尝试capture image
statistics,但是latent diffusion讲generation重新构造为一个在learned,
compact representation space中的process操作。通过在**这个latent
space,而不是raw pixel中操作,像Latent Diffusion Models和DIffusion
Transformers这样的model,显示了更高的visual
fidelity和efficiency,支撑了今天最强大的image和video
generators。
尽管diffusion backbones有进步,定义latent
space的autoencoder还没有改变,广泛使用地SD-VAE仍然依赖于channel-wise
compression和一个reconstruction-only
objective,产生了low-capactity的latent,capture局部的appearance,缺乏对于泛化和生成性能重要的全局语义结构,另外,SD-VAE建立于legacy
convolution design,仍然是计算不高效。同时,visual representation
learning经历了一个快速的变换。自监督和多模态的encoders例如DINO、MAE、JEPA,CLIP/SigLIP能够学习语义结构的visual
features,能够在tasks和scales上进行泛化,为visual
understanding提供了一个natural basis。然而,latent
diffusion仍然是在这个proces中鼓励的,仍然是在reconstruction-trained VAE
space中,而不是语义有意义的representational
ones。近期的工作尝试通过REPA-style和external
encoders的对齐,来间接提高latent
quality,但是这些方法引入了额外的training stages, auxiliary
losses和微调复杂性。
这个separation源自于长期的关于语义和生成目标之间的不兼容的假设。广泛地相信,训练的encoders不适合faithful
reconstruction,因为它们关注high-level information,仅能够重建image with
high-level semantic similarities。另外,一般相信diffiusion
model在high-dimensional latent spaces中表现较差,导致大家支持低维的VAE
latents,恶如不是更高维的semantic
encoders的representation。在这个工作中,作者展示了这些assumptions都是错误的。作者展示了,冻结representation
encoders,即使在reconstruction上显著地对语义进行优化的,可以repurpose为powerful
autoencoders用于generation,不需要架构的复杂或者额外的损失,能够超越SD-VAE。另外,作者发现,diffusion
transformer训练在这些高维空间中是稳定和高效的。有了正确的架构的调整,更高维度的representation不是liablity,恶如是一个优势,提供了更丰富的结构,更快地收敛和更好的生成质量。注意到,更高维度的latents引入了no
extra compute或者memory cost,因为token count 是固定的。
作者将这个insight