ICLR 2025 · 机器人操作 · Robotics

Latent Action Pretraining from Videos

无需动作标注,从海量视频中预训练 Vision-Language-Action 模型
Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

LAPA(Latent Action Pretraining for general Action models)利用 VQ-VAE 从无动作标注的互联网视频中自动发现离散 latent action,在无需机器人遥操作数据的情况下预训练 VLA 模型,最终通过小规模有标注数据微调映射到真实机器人指令,显著超越现有最优方法 OpenVLA,同时实现约 30× 的预训练效率提升。

ICLR 2025 arXiv 2410.11758 提交:2024-10-15 📄 arXiv:2410.11758 PDF
VLA latent action 视频预训练 VQ-VAE 机器人操作 action quantization pretraining without labels embodiment transfer

01 动机

现有 Vision-Language-Action (VLA) 模型的预训练依赖于机器人遥操作收集的有标注动作数据, 这使得可用数据规模极为有限。互联网上存在海量的人类操作视频(如 YouTube、Something-Something 等), 却因缺少机器人动作标签而无法直接用于 VLA 预训练。 如何利用这些无标注视频数据,是扩展机器人基础模型的核心瓶颈。

"We introduce LAPA, an unsupervised method for pretraining Vision-Language-Action (VLA) models without ground-truth robot action labels."
LAPA problem formulation
图 1 — 问题设定。LAPA 的目标是构建通用机器人基础模型: 利用海量无动作标注的人类操作视频(左上)进行预训练,再以少量有标注机器人数据微调, 最终部署到真实机器人(右下)。与需要大规模遥操作数据的现有方法不同, LAPA 完全绕过了对真实动作标签的依赖。
50.1%LAPA (Open-X) 真实机器人平均成功率
43.9%OpenVLA (Open-X) 对比基准成功率
30×LAPA 相对 OpenVLA 的预训练效率提升
272hLAPA 预训练所用 H100 GPU 时(OpenVLA 需 21,500 A100 时)

02 方法

LAPA 将预训练分为三个阶段:首先用 VQ-VAE 从视频帧对中学习离散 latent action; 接着让 VLM 从视频观测和语言指令中预测这些 latent action(行为克隆); 最后在小规模有标注机器人数据上微调,将 latent action 映射为真实机器人指令。

LAPA method overview
图 2 — LAPA 三阶段流水线。 Stage 1(Latent Action Quantization):编码器输入当前帧 xt 与未来帧 xt+h, 输出离散 latent action zt;解码器从 zt 重建未来帧(自监督)。 Stage 2(Latent Pretraining):VLM 学习从观测序列和语言指令预测 ztStage 3(Action Finetuning):替换 latent action head,在真实机器人数据上微调为端到端控制器。

Stage 1:Latent Action Quantization(VQ-VAE)

编码器采用 C-ViViT 架构,输入当前帧与未来帧(间隔 H 步),通过 cross-attention 提取"帧间变化", 输出离散 latent action token zt(词表大小 KL,默认 84=4096 种)。 解码器在给定 zt 和当前帧的条件下重建未来帧。 为防止梯度塌缩,使用 NSVQ(Normalized Straight-Through Vector Quantization)替代标准 VQ。 整个过程完全自监督,无需任何动作标注。

Stage 2:Latent VLA 预训练

以预训练 VLM(7B 参数)为骨干,冻结视觉编码器,对语言模型参数进行行为克隆训练: 给定视频帧序列和语言任务描述,预测对应的 latent action token 序列。 训练数据可以是任意无标注视频(如 Open-X Embodiment 数据集或 Something-Something V2 人类视频), 无需机器人遥操作数据。

Stage 3:Action Finetuning

仅需少量有标注的机器人演示数据:移除 latent action head,替换为任务专用 action head, 微调模型将学到的 latent 表征映射到真实机器人端效器动作。 由于 Stage 2 已学到丰富的视觉-语言-动作表征,Stage 3 收敛快、所需数据量少。

03 实验

评估在三个基准上进行:Language Table 仿真、SIMPLER 仿真(Open-X 子集)、 以及真实世界桌面操作(pick、cover、knock 三类任务,共 54 次 rollout)。 对比基线包括 Scratch、UniPi、VPT、ActionVLA、OpenVLA 等。

Language Table 仿真结果

模型 In-Domain Seen In-Domain Unseen Cross-Task Seen Cross-Task Unseen Cross-Env Seen Cross-Env Unseen
Scratch15.6±9.215.2±8.327.2±13.622.4±11.015.6±9.215.2±8.3
UniPi22.0±12.513.2±7.720.8±12.016.0±9.113.6±8.612.0±7.5
VPT44.0±7.532.8±4.672.0±6.860.8±6.618.0±7.718.4±9.7
LAPA62.0±8.749.6±9.573.2±6.854.8±9.133.6±12.729.6±12.0
ActionVLA77.0±3.558.8±6.677.0±3.558.8±6.664.8±5.254.0±7.0

LAPA 在 In-Domain Seen 上从 Scratch 的 15.6% 提升至 62.0%,Cross-Env Seen 从 15.6% 提升至 33.6%, 显示出跨环境泛化能力。ActionVLA 使用有标注动作数据预训练,作为上界参考。

真实机器人操作结果

Real-world manipulation results
图 3 — 真实桌面操作成功率对比。 评估三类泛化:Seen Obj. Unseen Combo(见过物体但未见过组合)、Unseen Obj.(未见物体)、 Unseen Instr.(未见指令)。LAPA (Open-X) 在三类泛化上均优于或持平 OpenVLA (Open-X), 平均成功率 50.1% vs. 43.9%。
模型 Seen Obj. Unseen Combo Unseen Obj. Unseen Instr. 平均 AVG
Scratch18.020.325.421.2
ActionVLA (Bridge)38.331.827.732.6
OpenVLA (Bridge)35.634.622.130.8
LAPA (Bridge)43.431.435.636.8
OpenVLA (Open-X)46.242.143.443.9
LAPA (Open-X)57.843.948.550.1
LAPA (Human Videos)36.537.428.134.0

人类视频预训练(跨体态迁移)

LAPA 使用 Something-Something V2(人类手部操作视频,无机器人数据)进行预训练后, 在真实机器人任务上仍能超越 OpenVLA (Bridge) 的平均成功率(34.0% vs. 30.8%), 证明 latent action 空间可跨体态迁移(embodiment transfer)。

Latent Action 可解释性分析

Latent action analysis
图 6 — Latent Action 语义映射。 在 Open-X Embodiment 数据集上,将 latent action 嵌入二维空间可视化, 显示出与真实动作(移动方向、抓取/放置等)的语义对应关系, 说明 VQ-VAE 在无监督下自动发现了具有意义的动作表征。

消融实验

04 局限性

说明:以下局限性均由论文作者在原文中明确陈述(stated)。
精细抓取动作能力不足

论文明确指出:"LAPA underperforms compared to action pretraining when it comes to fine-grained motion generation tasks like grasping." 在需要精确末端执行器控制的抓取任务中,LAPA 与使用有标注动作数据预训练的 ActionVLA 相比仍有差距, 例如在 pick-and-place 任务中 OpenVLA 在部分精细抓取场景优于 LAPA。

实时推理延迟

"Similar to prior VLAs, LAPA also encounters latency challenges during real-time inference." 作为基于大型语言模型的 VLA,LAPA 继承了 VLA 家族共有的推理速度瓶颈, 尚未针对在线控制进行专门优化。

评估场景局限于操作任务

当前实验主要集中于桌面操作场景。论文指出尚未探索 LAPA 在导航、自动驾驶等其他 机器人应用领域("beyond manipulation videos, such as those from self-driving cars, navigation") 的适用性,这些场景的泛化能力有待验证。