OpenVLA
OpenVLA: An Open-Source Vision-Language-Action Model[1]
作者是来自Stanford、UCB等机构的Moo Jin Kim等人。论文引用[1]:Kim, Moo Jin et al. “OpenVLA: An Open-Source Vision-Language-Action Model.” ArXiv abs/2406.09246 (2024): n. pag.
Time
- 2024.Sep
Key Words
- Open model, pretrained on internet-scale vision-language datasets, and a visual encoder that fuses DINOv2 and SigLIP features.
总结
- 在internet-scale 上的vision-language 数据和diverse robot demo的结合上进行预训练的policies有潜力改变如何教robots学习new skills:而不是training new behaviors from scratch,可以对VLA models进行微调,来得到robust, generalizable policies for visuomotor control。当前的robotics的VLA挑战性在于:现有的VLAs大部分是闭源的,public无法接触;之前的工作没能探索高效微调VLAs for new tasks的方法。作者提出了OpenVLA,解决了上述的挑战,它是一个7B的open-source VLA,在970k real-world robot demo上的diverse 的collections上训练的。OpenVLA建立在Llama 2 上,结合了一个visual encoder,能够融合来自DINOv2和SigLIP的features。作为一个added data diversity和new model components的product,OpenVLA展示出了strong results for generalist manipulation, 超过了closed model例如RT-2-X,少了7x的参数。作者进一步展示出了,能够对new settings进行有效地微调,在涉及多个objects和strong language grounding abilities上的多任务环境中,展示出了很强的泛化性, 超过了从零训练的imitation learning的方法,例如Diffusion Policy。