RT2

发表于 2025-06-09 分类于 Papers 阅读次数：本文字数： 2.5k 阅读时长 ≈ 9 分钟

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control^[1]

作者是来自DeepMind的Anthony Brohan等人，论文引用[1]:Brohan, Anthony et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” ArXiv abs/2307.15818 (2023): n. pag.

Time

2023.July

Key Words

map robot observations to actions
利用在language 和vision-language data大规模预训练的benefits
将actions表示text tokens
co-fine-tuning

总结

作者研究了在Internet-scale data上进行训练的VLM是如何直接引入到端到端的robotic control中，来提高泛化性和enable semantic reasoning。作者的目标是使得一个single端到端的trained model能够学习将robot observations映射到actions，然后能够利用在language和vision-language data from the web大规模预训练的优势，为了这个目的，作者提出了co-fine-tune的SOTA的VLMs on both robotic trajectory data和internet-scale vision-language tasks，例如VQA，相比于其它的方法，作者提出的方法简单，通用，能够实现这个目标，为了将自然语言的responses和robotic actions统一到相同的格式，作者将actions表示为text tokens，将它们引入model的training set，和自然语言的tokens一样，作者将这种类型的modals称之为VLA，并构建了该类模型的一个具体实例，命名为RT-2。作者的大量的evaluation表明：这个方法有很好的robotic policies，使得RT-2能够从internet-scale training上得到emergent capabilities，这包括繁华到新目标的能力，将没有出现在训练数据中的指令进行解译，对用户的指令进行基本的推理的能力，作者进一步展示了：引入了思维链的推理使得RT-2能够执行多阶段的语义推理，例如，确定将哪个物体作为临时锤子使用（如石头），或判断哪种饮品最适合疲惫的人（如能量饮料）。

在广泛的web-scale datasets上预训练的high-capacity models为多个下游任务提供了有效的platform，large language models不仅能够流畅地生成文字，也能立即解决问题，进行文学创作，同时vision-language models能够进行开集visual recognition，对images中的object-agent交互做出复杂推理，这样的语义推理，解决问题和视觉解译的能力对于通用的robots来说是有用的，它们需要在真实世界中执行多样的任务，然而，还不清楚robots应该如何得到这样的能力，一个暴力的方式是搜集millions这样的robotic interaction trials，最强的language和vision-language models是在billions of tokens and images from the web上训练的，这一数据规模在短期内难以通过机器人数据实现同等量级的覆盖。另一方面，直接将这些models用于robotic tasks是困难的，这些模型基于语义、标签和文本提示进行推理，而机器人需要执行物理环境中的实际底层动作（如机械臂的笛卡尔空间末端执行器指令）。尽管已有大量研究尝试将语言模型（LLMs）与视觉-语言模型（VLMs）融入机器人领域，这样的方法通常只解决了robotic planning的higher level，本质上扮演着状态机的角色——解析指令并将其分解为单个原始动作（如抓取与放置物体），随后由独立的底层控制器执行这些动作。然而，这些底层控制器本身在训练过程中无法受益于互联网规模模型所蕴含的丰富语义知识。因此，本文提出核心问题：能否将大规模预训练视觉-语言模型直接集成至低层机器人控制中，以提升泛化能力并实现涌现式语义推理?

为了这个目的，作者探索了一个简单有效的方法：直接训练原本设计用于开集VQA和visual dialogue的VLMs，使其输出低层机器人动作，同时解决其他互联网规模的视觉-语言任务。尽管这样的models被训练用来输出natural language tokens，可以通过将actions进行tokenizing为text tokens，构造multimodal sentences，在robotic trajectories上训练它们，使模型能够根据配对的相机观测图像与robotic instructions，生成对应的机器人动作来实现策略学习。通过这种方式，VLMs可被直接训练为instruction following robotic policies。这种简单方法与现有两种方案形成鲜明对比：其一是将视觉-语言模型（VLM）整合进机器人策略的传统方法，其二是从零开始设计新的视觉-语言-动作架构。相反，已有的大规模VLMs（这些模型已通过大量计算资源预训练）在不引入任何新参数的情况下被用于输出text-encoded的actions。我们将这一类模型称为视觉-语言-动作（VLA）模型。作者基于RT-1提出的协议对VLA模型进行了实现，用了类似的dataset，但是用一个大的Vision-Language backbone对model进行了扩展，因此，将model称之为RT-2(Robotics Transformer 2)。

作者管超大，从这样的VLMs中得到的robotic policies展示出了很强的能管理，结合了从robot data中学习到的physical motions和将web上的images和text解译为single model，除了显著提升对新颖物体和多样化指令的泛化能力这一预期优势之外，作者还观察到模型展现出一系列涌现能力。尽管模型的物理技能仍受限于机器人数据中出现过的技能分布，但它能够通过利用从网络中获取的知识来理解图像和语言指令，从而以新的方式运用这些已有技能。另外，如果用思维链prompting来增强command，model能够做出更复杂的语义推理。

作者的主要贡献是RT-2，对大的VLMs微调得到的models，能够直接作为具有泛化能力和语义感知能力的robotic policies，在总计 6000 次机器人的评估中，我们展示了 RT-2 在物体、场景和指令上的泛化能力显著提升，并表现出一系列从网络规模视觉-语言预训练中继承而来的涌现能力。
VLMs将一个或多个images作为输入，然后产生一系列的tokens，一般是代表自然语言的text，这样的models能够执行广泛地visual interpretation和reasoning task，从推理一个image的构成到回到objects及Objects之间关联的问题，representing执行如此广泛任务所需的知识，需要大型模型和网络规模的数据集，在文本中，作者次啊用了之前的两个VLMs作为VLA models： PaLI-X和PaLM-E，将这些models的VLA版本表示为RT-2-PaLI-X和RT-2-PaLM-E，作者采用了这些模型的不同实例，其规模从数十亿到数百亿参数不等。
为了使得VLMs来控制robot，它们必须被训练来输出actions，作者采用了一个直接的方法，将**actions表示为tokens in the model's output，和language tokens一样，作者将action encoding基于discretization，这个action space包含robot end-effector的6-DoF的位置和旋转displacement，机械手的张合程度，以及一个用于终止当前任务的特殊离散指令，该指令应由策略触发，以表示任务已成功完成。除终止指令外，其余连续维度均被均匀地离散为 256 个区间。因此，机器人动作可以通过这些离散区间的序号表示为 8 个整数。为了将这些离散化的actions用于微调视觉-语言模型，使其成为视觉-语言-动作模型，需要将模型已有的分词器中的tokens与这些discrete action bins进行关联。这要求保留256 tokens作为action tokens，选择哪个tokens依赖于每个VLMs采用的tokenization，为了定义一个用于VLM 微调的target，作者将action vector通过简单地转换成single string，具体做法是：将每个维度对应的action tokens以空格连接的方式进行concatenate。PaLI-X和PaLM-E用了不同的tokenizaitons，对于PaLI-X，每个不超过 1000 的整数都有一个唯一的标记（token），因此我们只需将action bins直接映射到对应整数的标记上。而对于 PaLM-E 模型，由于它不提供这种便捷的数字表示方式，则将其最不常用的 256 个tokens进行override，用于表示action tokens。值得注意的是，将视觉语言模型（VLM）中已有的tokens override为action tokens是一种符号微调(symbol tuning)。

采用上述的action representation的方法，将robot data转换成适用于VLM model fine-tuning，输入包括robot camera image和textual task description，是促使一个数字/least frequently used tokens，表示一个robot action.
一个重要的训练recipe是 co-fine-tuning robotic data with the original web data，而不是在robot data上进行微调。co-fine-tuning会有更泛化的policies。RT-2和标准的VLMs的不同之处在于, RT-2要求输出valid action tokens，用于真实的robot的执行，因此，为了确保RT-2输出有效的action tokens，当model 被prompt一个robot-action task的时候，通过仅对valid action tokens进行sampling，限制输出的vocabulary，然而，model还是能够输出完整的natural language tokens on standard vision-language tasks.

Overview \(Fig.1^{[1]}\) 将robot actions表示为另一种language，被转换为文本标记，和大规模的vision-language datasets一起训练，在推理的时候，text tokens被de-tokenized为robot actions，实现闭环控制，这使得我们在学习robotic policies的时候，能够利用VLM的backbone和预训练，将它们的泛化能力、语义理解和推理迁移到robot control。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[1]

Time

Key Words

总结

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control^[1]