Olympus
Olympus: A Universal Task Router for Computer Vision Tasks[1]
作者是来自牛津和微软的Yuanze Lin等人,论文引用[1]:Lin, Yuanze et al. “Olympus: A Universal Task Router for Computer Vision Tasks.” ArXiv abs/2412.09612 (2024): n. pag.
Time
- 2025.Apr
Key Words
- universal task router
- 一句话总结:用MLLMs内在的能力来处理vision-language tasks,用task-specific routing tokens将user instructions分配给其它的的专家models
总结
- 作者介绍了Olympus,是一个将MLLMs变成一个统一的框架,能够处理广泛的CV tasks,利用一个controller MLLM,Olympus将超过20种专门针对图像、视频和3D对象的任务分配给专用模块。这个instruction-based的routing能够通过chained actions实现复杂的workflows,不需要训练heavy generative models,Olympus简单地和现有的MLLMs集成,扩展了他们的能力。实验表明,它是一个有效的**universal task router,能够解决多种CV tasks。