LaVin-DiT
LaVin-DiT: Large Vision Diffusion Transformer[1]
作者是来自悉尼大学、NUS等机构的Zhaoqing Wang等人。论文引用[1]:Wang, Zhaoqing et al. “LaVin-DiT: Large Vision Diffusion Transformer.” ArXiv abs/2411.11505 (2024): n. pag.
Time
- 2025.Mar
Key Words
- Diffusion Transformer
- 将ST-VAE 和Diffusion transformer结合起来,有效地处理高维vision data,通过in-context learning, LaVin-ViT能够适应多个tasks不需要fine-tuning。
总结
本文提出了Large Vision Diffusion Transformer(LaVin-DiT),是一个可扩展的、统一的foundation model,以generative框架的形式,处理超过20种cv tasks,不同于现有的large vision models,它们直接从NLP的架构修改而来,很少依赖于高效的自回归方式,扰乱了对于vision data很重要的spatial relationships。LaVin-DiT引入了key innovations来优化generative performance for CV tasks,首先:为了解决visual data的高维问题,作者引入了一个spatial-temporal variational autoencoder,将data编码到一个连续的latent space;其次,对于generative modeling,作者开发了一个joint diffusion transformer,能够progressively 产生vision outputs;第三,对于统一的多任务训练,执行in-context learning,input-target pairs作为task context,指导diffusion transformer在latent space中,将outputs和specific tasks进行对齐,在推理的时候,一个task-specific context set和test data作为queries,使得LaVin-DiT不需要fine-tune就能泛化到多个tasks,在大量的vision datasets上训练,这个model从0.1B扩展到3.4B,展示出了scalability和SOTA的性能。