SpatialVLA

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model[1]

作者是来自上海AI Lab、TeleAI和ShanghaiTech的Delin Qu等人。论文引用[1]:Qu, Delin et al. “SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model.” ArXiv abs/2501.15830 (2025): n. pag.

Time

  • 2025.Mar

Key Words

  • Ego3D position Encoding
  • Adaptive Action Grids

总结

  1. 作者认为,spatial understanding在robot manipulation中是keypoint,提出了SpatialVLA来探索有效的spatial representation。特别地,引入了Ego3D Position encoding,将3D information inject到input observations of the visual-language-action model,提出了adaptive action grids来represent spatial robot movement actions with adaptive discretized action grids,促进了学习 generalizable和transferrable spatial action knowledge for cross-robot control。SpatialVLA是第一个pretrained on top of a vision-language model with 1.1 Million real-world robot episodes,来学习一个在多个环境中generalist manipulation policy,在预训练之后,SpatialVLA可以以zero-shot的方式,来执行多个tasks.
  1. 能够和物理世界进行交互的,适应多个embodiments,执行complext tasks的generalist robot policies是robotics的长期的追求。最近VLA models的进展展示出了通过微调pretrained VLMs,构建这样generalist policy的promising的范式。这个范式的成功的关键在于将VLMs的泛化能力用于多个robot manipulation tasks,还有一个写specific 架构的设计,来合成VLM backbone和robot action output head。然而,现有的VLA models主要受限于2D observation inputs,缺乏precise perception和3D 物理世界的理解,humans能够instinctively 构建丰富的mental representations of space,effortlessly和objects与workspace进行对齐for manipulation。因此,这个领域的关键问题是:如何有效地让VLA models具备profound spatial understanding of the 3D physical world?

    然而,开发这样一个generalist robot policies with 3D spatial intelligence在robot observation和action方面遇到了两个主要的挑战。首先,来自不同robot embodiments的observations不是3D-aligned,因为不同robots的camera sensors是various,架设在了不同的位置,导致3D observation spaces是没有标定的。第二,不同的robot有不同的action movement characteristics来完成多样的tasks,由于不同的自由度、motion controllers和workspace configurations、task complexity,导致在学习generalizable spatial actions上有很大的困难,尽管在generalist policy上有一些尝试,generalist policy的3D spatial understanding的能力的进展很慢。主要是由于robot observation和action information的多样性。解决上述挑战,要求一个spatial-aligned robot observation和action representations,用于cross-embodiment control和3D 物理世界的adaptation

    通过exploring 对齐的robot observation和spatial representations和action signals,SpatialVLA通过Egocentric 3D(Ego3D) 和Position Encoding来感知3D world,将3D spatial context和语义features进行集成。这个position encoding是来自于egocentric camera frame,消除了robot-camera calibration的需要,能够用于多个robot embodiment。至于robot actions, SpatialVLA统一了多个robots的action space via Adaptive Action Grids,将连续的robot actions根据statistical action distributions on the whole robot episodes,离散化为adaptive spatial grids,在这些grids上学习spatial action tokens将cross-robot actions和物理世界的3D 空间结构对齐。在预训练之后,学习到的spatial action grids展示出了适应新的robot环境的超强的能力,提供了一个flexible和effective 方法。作者发现,所提出的模型 SpatialVLA 以一种通用的、robot-agnostic的方式连接了observation与action outputs,该模型通过探索强大的3D spatial-aware representations来增强 VLA 模型。

  2. 最近Robotics的进展见证了一个开发multi-task generalist robot policies,来执行多个tasks的趋势,而不是一个特定的task。一些早期的工作在single embodiment,用pretrained visual/text encoder,在学习language-conditioned visual multi-task policy上实现了很大的成功,缺乏适应到新的robot environment的能力,最近的efforts探索了利用large-scale,cross-embodiment robot datasets用于generalist polices的pretraining,支持了new robot setups的有效的fine-tuning。Octo提出了基于Transformer架构,来unify Open X-Embodiment数据集中的不同的configurations,训练的policy能够解决in-domain tasks in a zero-shot manner。RDT预训练了一个1.2B的基于Diffusion的generalist model,对其进行微调,用于complex bimanual manipulation,另外,HPT提出了一个modular 架构,将多个不同的embodiments上的数据对齐到一个shared representation via embodiment-specific stem module,从而在预训练阶段充分利用数据中的异构性。

    • Vision-Language-Action Models:最近,一些研究通过扩展VLMs 到robot action generation,构建generalist robot policies,RT-2在large-scale vision-language data和robot demonstration data上,通过autoregressive next token prediction,对VLM PaLI-X进行微调。OpenVLA采用了一个类似的action 离散化的方阿飞,在OXE数据集上微调 Prismatic VLM,包含来自22个不同的robot embodiments的robot data。CogACT和TraceVLA,用一个新的diffusion action module和visual trace prompting来微调OpenVLA。另外,\(\pi_0\) c通过增加一个action expert module将PaliGemma VLM应用于robot control,这个action expert module通过flow matching产生连续的actions,这个model可以被prompted,用于zero-shot control,或者在高质量数据上微调,实现复杂的dexterous manipulation tasks,注意到,这些models受益于VLMs的能力,展示出了一些zero-shot的能力,用new data进行复杂微调的step是重要的,对于complex tasks也是必要的。

    • 3D foundation models for Robotics: 一些研究聚焦于,将LLMs和VLMs 的generalists的能力扩展到3D worlds,3D-LLM将一个3D feature extractor和2D VLMs的backbone进行集成,在一个wide variety of tasks上训练3D-LLMs,包括dense captioning,3D question answering。LLaVA-3D 用3D patches对2D LLaVA进行扩展,将3D space中的2D features进行连接,用于3D spatial understanding。类似的,LEO训练一个embodied multi-model generalist agent,能够将egocentric 2D images、3D point clouds和text作为task input。另外,3D-VLA在3D-base LLM基础上构建了一个generative world model,来执行3D reasoning、localization、multimodel goal generation。LEO和3D-VLA的聚焦于3D world understanding和prediction,忽视了3D spatial 的特性。