机器人 · Robotics  ·  CoRL 2023

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

将互联网视觉-语言知识迁移到机器人控制的 VLA 模型
Anthony Brohan, Noah Brown, Yevgen Chebotar, Danny Driess, Chelsea Finn, Karol Hausman, Sergey Levine, Tianhe Yu 等 54 位作者  ·  Google DeepMind

RT-2 提出了一类新型模型——视觉-语言-动作模型(Vision-Language-Action, VLA):将机器人动作表示为文本 token,与互联网规模的视觉-语言任务联合微调,使单一端到端模型既能执行操作任务,又能从网络预训练中继承突现式语义推理与强泛化能力。在超过 6,000 次真实机器人评估中,RT-2 相比先前基线实现了约 的泛化提升,以及超过 的突现能力提升。

arXiv 2307.15818 · 2023-07-28 最大模型:PaLI-X 55B 参数 真实机器人评估:6,000+ 轨迹 📄 arXiv:2307.15818 Project Page
VLA vision-language-action 机器人操作 co-fine-tuning emergent capabilities action tokenization 泛化 chain-of-thought PaLI-X PaLM-E

01 动机 Motivation

现有机器人控制方法往往将视觉-语言模型(VLM)仅用于高层规划,底层动作执行依赖独立的控制器,无法享受互联网规模预训练带来的丰富语义知识。另一方面,直接用海量机器人数据追赶 VLM 的训练量几乎不可能实现。那么,能否将大规模预训练 VLM 直接整合进闭环机器人控制,从而提升泛化能力并使突现式语义推理成为可能?

"can large pretrained vision-language models be integrated directly into low-level robotic control to boost generalization and enable emergent semantic reasoning?"
RT-2 overview
图 1:RT-2 总览。机器人动作被表示为另一种"语言",编码为文本 token 后与互联网规模的视觉-语言数据集联合训练。推理时,文本 token 被解码为机器人动作,实现闭环控制。这一设计允许视觉-语言主干的预训练权重直接用于策略学习,将 VLM 的泛化、语义理解与推理能力迁移到机器人控制中。
6k+真实机器人评估轨迹
~2×泛化任务相对 RT-1/MOO 的提升
>3×突现能力相对最优基线的提升
55B最大模型参数量(PaLI-X-55B)

02 方法 Method

RT-2 的核心思路极为简洁:将机器人动作表示为文本 token,并将其以与自然语言 token 完全相同的方式加入 VLM 的训练集,实现"动作即语言"的统一输出空间。在此基础上,通过联合微调(co-fine-tuning)同时使用机器人轨迹数据与原始互联网视觉-语言数据,防止灾难性遗忘并保留 VLM 预训练知识。

动作表示为文本 Token(Action Tokenization)

机器人动作空间包含 6-DoF 末端执行器位移/旋转、夹爪开合和终止命令,共 8 个维度。连续维度被均匀离散化为 256 个 bin,整个动作向量拼接为一串整数字符串,例如:"1 128 91 241 5 101 127"。对于 PaLI-X,直接复用表示整数的已有 token;对于 PaLM-E,则将 256 个使用频率最低的 token 覆写为动作词表——这本质上是一种 symbol tuning。VLM 以标准 VQA 格式接受输入:"Q: what action should the robot take to [task instruction]? A:",输出对应动作 token 串。

联合微调(Co-Fine-Tuning)

实验表明,仅用机器人数据微调(naive fine-tuning)会导致 VLM 遗忘预训练语义知识,泛化能力下降。RT-2 的关键训练细节是在每个 batch 中混合机器人数据与原始互联网视觉-语言数据,并通过上采样机器人数据集来平衡比例。这使模型在低层次机器人动作与抽象视觉概念之间保持双向兼容。

实时推理(Real-Time Inference)

55B 参数的 RT-2-PaLI-X 无法在桌面 GPU 上实时运行。论文采用多 TPU 云服务部署模型,机器人通过网络查询该服务。RT-2-PaLI-X-55B 控制频率为 1–3 Hz;5B 版本约 5 Hz。据作者所述,这是目前直接用于闭环机器人控制的最大模型,超过此前同类方法达一个数量级以上。

思维链推理扩展(Chain-of-Thought)

在 RT-2-PaLM-E 上,仅用数百步梯度更新的数据增强,即可让模型先以自然语言生成"Plan"步骤,再输出动作 token,例如:"Instruction: I'm hungry. Plan: pick rxbar chocolate. Action: 1 128 124 136 121 158 111 255."这一扩展使模型能应对更复杂的多步语义推理指令。

03 实验 Experiments

实验在真实 7-DoF 移动机械臂上进行,共完成约 6,000 条评估轨迹。基线包括:RT-1(35M 参数 Transformer)、VC-1(预训练表征 + RT-1 骨干)、R3M(预训练表征)、MOO(VLM 生成语义地图后接 RT-1)。评估分为两大类:(1) 在见过/未见过的物体、背景、环境中的泛化;(2) 突现能力(symbol understanding / reasoning / human recognition)。

generalization results
图 4:泛化性能对比。在已见任务上,RT-2 与 RT-1 表现相当;在未见物体、背景、环境的泛化评估中,RT-2(PaLM-E 和 PaLI-X 两版本)平均约为 RT-1 和 MOO 的 ~2×,约为 VC-1/R3M 的 ~6×。较难场景中 RT-2-PaLM-E 优于 RT-2-PaLI-X,较易场景则相反,平均相近。

Language-Table 仿真基准

模型Language-Table 成功率
BC-Zero (Jang et al., 2021)72 ± 3
RT-1 (Brohan et al., 2022)74 ± 13
LAVA (Lynch et al., 2022)77 ± 4
RT-2-PaLI-3B(本文)90 ± 10

在开源 Language-Table 仿真环境中,RT-2-PaLI-3B 达到 90 ± 10% 成功率,远超此前最佳的 LAVA(77 ± 4%)。

emergent capabilities
图 6:突现能力与消融实验。左图:在 symbol understanding、reasoning、human recognition 三类突现任务上,RT-2-PaLI-X 平均成功率超过最优基线 RT-1 的 。右图:消融实验显示,从零开始训练性能极差;co-fine-tuning 优于仅用机器人数据微调;模型规模越大泛化越好(55B > 5B)。

Chain-of-Thought 推理示例

chain of thought rollouts
图 7:思维链推理展示。RT-2 先生成自然语言"Plan"(如"pick rxbar chocolate"、"Rocks"),再输出动作 token 执行。示例任务包括"我饿了"→拿出能量棒、"帮我找个能敲钉子的东西"→选择石块。这些能力均未在机器人演示数据中出现,来源于 VLM 的网络知识迁移。

消融分析

针对 RT-2-PaLI-X,论文比较了三种训练方案:从零开始训练(scratch)、仅机器人数据微调(fine-tune)、联合微调(co-fine-tune);以及两种规模:5B 和 55B。主要结论:

04 局限性 Limitations

说明:以下局限性均为论文第 5 节(Limitations)中作者明确陈述的内容(stated)。
物理技能受限于机器人演示数据分布

RT-2 虽然能以新方式部署已有操作技能,但不会从 VLM 预训练中习得全新的运动能力。模型的物理技能仍局限于机器人数据所覆盖的技能分布(如拾取、放置等)。作者指出,一个有前景的方向是通过人类视频等新数据范式扩展技能多样性。

推理计算成本高,难以满足高频控制需求

55B 参数模型需要多 TPU 云服务支撑,控制频率仅 1–3 Hz,无法满足要求高频控制的任务。论文指出,量化(quantization)和蒸馏(distillation)是值得探索的方向,以期在更低成本硬件上实现更高频率推理。

可用 VLM 基座数量有限

构建 VLA 模型需要对 VLM 进行微调,而目前可公开微调的大型 VLM 数量非常有限。论文表达了对更多开源 VLM(如 LLaVA)出现以及商业模型开放微调 API 的期待,认为这是推广 VLA 方法的必要前提。