SmolVLA

发表于 2025-06-10 分类于 Papers 阅读次数：本文字数： 1.6k 阅读时长 ≈ 6 分钟

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics^[1]

作者是来自Hugging face， Sorbonne University等机构的Mustafa Shukor等人，论文引用[1]:Shukor, Mustafa et al. “SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics.” (2025).

Time

2025.Jun

Key Words

action expert with flow matching
SmolVLM-2
skip computations

总结

在大规模多模态数据集上预训练的VLMs编码丰富的visual、linguistic knowledge，使得它们称为robotics的strong foundation，不同于从零开始训练robotic policies，最近的方法将VLMs改为VLA models，使得能够natural language-driven perception 和control，然而，现有的VLAs太大了，通常billions的参数，导致很高的训练成本和有限的实际的部署。另外，它们依赖于学术和工业数据集，忽视了从affordable robotic platforms搜集到的data，在这个工作中，作者提出了SmolVLA，是一个小的，高效的、community-driven VLA，极大地降低了训练和推理成本，同时保持了competitive 的性能，SmolVLA在单个GPU上训练，然后可以部署在消费级的GPUs上，为了进一步提高responsiveness，作者引入一个异步推理堆栈，将感知和动作预测与动作执行解耦，从而通过分块生成动作实现更高的控制率。尽管compact size，SmolVLA实现了比它大10倍的VLA相当的性能。

尽管多模态的foundation models取得了很大的成就，但是，foundation models在robotics领域的应用还是有限的，特别地，Robotic policies在泛化到object types, positions, environments, tasks等方面仍然面临挑战，Robots应该能够适应新的环境，新的objects，要求robust的skills和对世界的理解，这个方向的进步通过倍高质量和多样性的数据所局限。为了解决这个局限，一些工作开始以VLAs的形式探索robotics foundation models，VLAs引入了嵌入在预训练的LLMs和VLMs中的抽象的推理，世界知识，决策能力，这些models将多模态作为输入，例如visual observations和natural language instructions，预测对应的robotic actions。

VLA models还是早期的阶段，还没和广泛使用的LLMs和VLMs那样成熟，一些有影响力的VLA是受专利保护的，作者在本文中，提出了SmolVLA，是一个开源的，compact yet capable VLA model，可复现的，高效训练。贡献如下：
- 轻量的架构：作者提出了SmolVLA，是一个compact和高效的vision-language agent，在消费级GPUs上优化训练的，Key design包括skipping layers in the VLM，利用小的预训练的VLMs，用了少量的visual tokens，将self-attention layers和lighter cross-attention layers交错。
- SmolVLA是端到端训练的，仅使用完全来自公开可用的、由社区贡献的数据集中少于3万次任务实例，便展现出强大的性能——其数据量级比现有技术减少了一个数量级
- 异步推理，作者引入了一个优化的异步推理stack，将action execution和observation processing、action prediction进行解耦，降低了延迟，使得快速、资源高效的推理。
现有的VLMs大多数聚焦于image和text模态，最近的工作展示了类似的方法可以扩展到集成额外的模态，例如video和audio。robotics研究的一个兴起的领域是generalist policies的反战，models能够处理多种任务，泛化到不同的environments和robot embodiments，一个主流的策略是利用VLAs，能够处理给定的natural language, visual observations, proprioceptive inputs的task instructions来输出control actions，早期的努力包括Octo，RT-1，为了提高性能和泛化性，RT-2利用预训练的VLMs，进一步在robotics-specific data上进行fine-tuning，为了提高openness和客可复现性，OpenVLA开源了一个7B的VLA，由于action tokenization对连续控制提出了挑战，有人利用一个预训练的VLM，RDT-1B，引入了一个diffusion component，称之为action expert, 在robotic demostrations上训练的，最近，也有人提出用全自回归的方法，用一个新的action tokenizer，提高传统的binning 方法，但是推理比较慢，为了提高VLAs的效率，TinyVLA从零训练了一个轻量的1B model，然后再robotics datasets上微调，尽管没有再大规模的robotics data上预训练，阻碍了更广的泛化能力，SmolVLA和这些努力一样，旨在开发一个开源的model，在训练和推理方面性能好且高效。
SmolVLA是一个轻量的VLA，包括一个紧凑的预训练的VLM，一个action expert，用flow matching训练的，给定多个images和一个language instruction描述task，model输出a chunk of actions，第一次在community-collected datasets上用模仿学习进行预训练，然后在真实世界和仿真数据中进行evaluate，预训练data包含很多tasks和behaviors，使得model能偶学习泛化的物理skills，能够迁移到多个settings，在推理的时候，作者引入了异步execution stack，将action execution和perception，prediction进行解耦，使得更快和更responsive的控制。 SmolVLA的架构主要是两个方面：一个负责感知的预训练的VLM，一个action expert，两个component是相互连接的，VLM处理state inputs来产生features，对action expert进行condition，而aciton expert产生的action反过来会改变输入到VLM的状态。具体而言，VLM处理感知运动状态，包括来自多个RGB摄像头的图像，以及描述任务的语言指令。VLM输出features直接给到action expert，action expert输出最后的连续的action。作者采用了SmolVLM-2，SmolVLM-2依赖于SigLIP来编码visual features，visual, language, state tokens进行concatenate，然后给到language decoder，通过decoder layer得到的结果用于condition action expert，采用linear projection layers将states进行project，来匹配VLM的dimension，将actions进行project，来匹配action experts的dimensions，将VLM features和action experts的dimension进行对齐。

\(Fig.1^{[1]}\) SmolVLA包含一个紧凑的预训练的vision-language model，丢弃了最后的L-N layers，剩余的layers将language instruction，RGB images和robot sensorimotor state进行embed，融合的tokens给到action expert，交替进行cross-attention和self-attention，用flow matching输出n个low-level action chunks，SmolVLA是在公开的community datasets上预训练的。

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics[1]

Time

Key Words

总结

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics^[1]