SmolVLA
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics[1]
作者是来自Hugging face, Sorbonne University等机构的Mustafa Shukor等人,论文引用[1]:Shukor, Mustafa et al. “SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics.” (2025).
Time
- 2025.Jun
Key Words
- action expert with flow matching
- SmolVLM-2
- skip computations
总结
- 在大规模多模态数据集上预训练的VLMs编码丰富的visual、linguistic knowledge,使得它们称为robotics的strong foundation,不同于从零开始训练robotic policies,最近的方法将VLMs改为VLA models,使得能够natural language-driven perception 和control,然而,现有的VLAs太大了,通常billions的参数,导致很高的训练成本和有限的实际的部署。另外,它们依赖于学术和工业数据集,忽视了从affordable robotic platforms搜集到的data,在这个工作中,作者提出了SmolVLA,是一个小的,高效的、community-driven VLA,极大地降低了训练和推理成本,同时保持了competitive 的性能,SmolVLA在单个GPU上训练,然后可以部署在消费级的GPUs上,为了进一步提高responsiveness,作者引入一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块生成动作实现更高的控制率。尽管compact size,SmolVLA实现了比它大10倍的VLA相当的性能。
尽管多模态的foundation models取得了很大的成就,但是,foundation models在robotics领域的应用还是有限的,特别地,Robotic policies在泛化到object types, positions, environments, tasks等方面仍然面临挑战,Robots应该能够适应新的环境,新的objects,要求robust的skills和对世界的理解,这个方向的进步通过倍高质量和多样性的数据所局限。 为了解决这个局限,一些工作开始以VLAs的形式探索robotics foundation models,VLAs引入了嵌入在预训练的LLMs和VLMs中的抽象的推理,世界知识,决策能力,这些models将多模态作为输入,例如visual observations和natural language instructions,预测对应的robotic actions。
VLA models还是早期的阶段,还没和广泛使用的LLMs和VLMs那样成熟,一些有影响力的VLA是受专利保护的,作者在本文中,提出了SmolVLA,是一个开源的,compact yet capable VLA model,可复现的,高效训练。贡献如下:
- 轻量的架构:作者提出了SmolVLA,是一个compact和高效的vision-language agent,在消费级GPUs上优化训练的,Key design包括skipping layers in the VLM,利用小的预训练的VLMs,用了少量的visual tokens,将self-attention layers和lighter cross-attention layers交错。
- SmolVLA是端到端训练的,仅使用完全来自公开可用的、由社区贡献的数据集中少于3万次任务实例,便展现出强大的性能——其数据量级比现有技术减少了一个数量级
- 异步推理,作者引入了一个优化的异步推理stack,将action execution和observation processing、action prediction进行解耦,降低了延迟,使得快速、资源高效的推理。
现有的VLMs大多数聚焦于image和text模态,最近的工作展示了类似的方法可以扩展到集成额外的模态,例如video和audio。robotics研究的一个兴起的领域是generalist policies的反战,models能够处理多种任务,泛化到不同的environments和robot embodiments,一个主流的策略是利用VLAs,能够处理给定的natural language, visual observations, proprioceptive inputs的task instructions来输出control actions,早期的努力包括Octo,RT-1,为了提高性能和泛化性,RT-2利用预训练的VLMs,进一步在robotics-specific data上进行fine-tuning,为了提高openness和客可复现性,OpenVLA开源了一个7B的VLA,由于action tokenization对连续控制提出了挑战, 有人利用一个预训练的VLM,RDT-1B,引入了一个diffusion component,称之为action expert, 在robotic demostrations上训练的,最近,也有人提出用全自回归的方法,用一个新的action tokenizer,提高传统的binning 方法,但是推理比较慢,为了提高VLAs的效率,TinyVLA从零训练了一个轻量的1B model,然后再robotics datasets上微调,尽管没有再大规模的robotics data上预训练,阻碍了更广的泛化能力,SmolVLA和这些努力一样,旨在开发一个开源的model,在训练和推理方面性能好且高效。
SmolVLA是一个轻量的VLA,包括一个紧凑的预训练的VLM,一个action expert,用flow matching训练的,给定多个images和一个language instruction描述task,model输出a chunk of actions,第一次在community-collected datasets上用模仿学习进行预训练,然后在真实世界和仿真数据中进行evaluate,预训练data包含很多tasks和behaviors,使得model能偶学习泛化的物理skills,能够迁移到多个settings,在推理的时候,作者引入了异步execution stack,将action execution和perception,prediction进行解耦,使得更快和更responsive的控制。 SmolVLA的架构主要是两个方面:一个负责感知的预训练的VLM,一个action expert,两个component是相互连接的,VLM处理state inputs来产生features,对action expert进行condition,而aciton expert产生的action反过来会改变输入到VLM的状态。具体而言,VLM处理感知运动状态,包括来自多个RGB摄像头的图像,以及描述任务的语言指令。VLM输出features直接给到action expert,action expert输出最后的连续的action。 作者采用了SmolVLM-2,SmolVLM-2依赖于SigLIP来编码visual features,visual, language, state tokens进行concatenate,然后给到language decoder,通过decoder layer得到的结果用于condition action expert,采用linear projection layers将states进行project,来匹配VLM的dimension,将actions进行project,来匹配action experts的dimensions,将VLM features和action experts的dimension进行对齐。
\(Fig.1^{[1]}\)
SmolVLA包含一个紧凑的预训练的vision-language model,丢弃了最后的L-N
layers,剩余的layers将language instruction,RGB images和robot
sensorimotor state进行embed,融合的tokens给到action
expert,交替进行cross-attention和self-attention,用flow
matching输出n个low-level action chunks,SmolVLA是在公开的community
datasets上预训练的。