arXiv 2025 · cs.RO · Robotics

LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer

将机器人动作表示为自然语言,让 VLM 预训练知识直接迁移至未见过的机械臂
Lihan Zha, Asher J. Hancock, Mingtong Zhang, Tenny Yin, Yixuan Huang, Dhruv Shah, Allen Z. Ren, Anirudha Majumdar  ·  Princeton University & Physical Intelligence

LAP 提出"语言动作(language-action)"表示:将末端执行器的运动直接编码为自然语言短语(如 "move forward 5 cm"),从而使动作监督信号与 VLM 的预训练分布对齐。以此训练的 LAP-3B 在 3 个从未见过的机械臂上实现平均超 50% 的零样本成功率,比最强现有 VLA 基线提升约 2 倍;且仅需约 2.5× 更少的演示样本即可达到相当的微调性能。

arXiv 2602.10556 2026-02 提交 LAP-3B · PaliGemma-3B backbone 📄 arXiv:2602.10556 🌐 Project Page
language-action pre-training VLA zero-shot cross-embodiment 具身智能 robot manipulation flow matching vision-language model 跨机器人迁移

01 动机

尽管 VLA 模型已在多机器人混合数据集上大规模预训练,"state-of-the-art VLAs still rarely function zero-shot on new robots"——哪怕只是换了一个夹爪或调整了摄像头位置,模型就会失效。问题根源在于:现有方法将 VLM 微调为直接预测连续动作或离散控制 token,这造成了"distributional mismatch",因为 VLM 的预训练从未接触过电机级高频控制信号,也无法从这些信号中提取任何跨机器人通用的语义结构。

"Zero-shot cross-embodiment transfer depends critically on how we adapt a pre-trained VLM for motor control."
LAP teaser: zero-shot transfer across embodiments
图 1:LAP 框架概览与零样本迁移效果。LAP 将底层动作直接表示为自然语言,以此监督 VLM 骨干网络的预训练。LAP-3B 在训练时仅见过 DROID 机械臂,却能零样本控制 Custom Franka、YAM、Kinova 三种此前从未接触的机器人,完成多类真实操作任务。
>50%3 个新机器人的平均零样本成功率
~2×超越最强 VLA 基线的提升幅度
2.5×少于基线所需演示数量的微调效率提升
0%所有现有开源 VLA 在未见机器人上的零样本成功率

现有的五个开源 VLA(π0.5-DROID、π0.5-Base、X-VLA、MolmoAct、OpenVLA)在未见机器人上均完全失效,成功率均为 0%。这表明简单地增大数据规模并不能解决跨机器人泛化问题,关键在于动作表示的选择。

02 方法

LAP 的核心思路是:用结构化的自然语言短语描述末端执行器的运动("language-action"),将该语言动作作为 VLM 的监督目标,使动作预测落回 VLM 擅长的语言生成任务上。同时配置一个轻量级 diffusion 动作专家将语言动作解码为连续控制信号,并通过"knowledge insulation"阻断梯度回传,保护 VLM 骨干的表征质量。

LAP architecture
图 2:LAP-3B 架构与语言动作表示。(a) VLM 骨干(PaliGemma-3B)以 cross-entropy 目标预测离散语言动作 token;轻量级动作专家以 flow-matching 目标将语言动作解码为连续动作;梯度从动作专家到 VLM 骨干被截断(knowledge insulation)。推理时仅运行动作专家,实现 25 Hz 实时控制。(b) DROID 数据集中语言动作样本示例,如 "move forward 5 cm"、"tilt left 20 degrees"。

语言动作(Language-Action)表示

语言动作采用固定模板 "<verb> <direction> <magnitude> <unit>",例如 "move forward 5 cm" 或 "tilt left 20 degrees",确定性地描述末端执行器的运动。该表示无需学习 tokenizer,直接由原始动作数据按坐标约定解析生成。其设计优势在于:语义结构与自然语言空间对齐,使 VLM 的预训练知识(方向感、数量感)可直接复用于跨机器人动作预测。

双模型推理与知识隔离

LAP-3B 由两个模块组成:① VLM 骨干(PaliGemma-3B):以 cross-entropy 损失在语言动作 token 序列上训练,输出离散语言动作;② 轻量级 diffusion 动作专家:以 flow-matching 目标将语言动作解码为连续 7-DoF 控制信号,支持 25 Hz 实时执行。两模块之间通过 knowledge insulation 截断反向传播,防止动作专家的连续动作损失污染 VLM 骨干已习得的通用视觉-语言表征。

运动预测 VQA 协同训练

额外引入一个运动预测辅助任务(motion-prediction VQA):给定两帧图像,模型预测描述其位移的语言动作。该目标作为逆向动力学自监督,进一步增强 VLM 骨干的动作感知能力。协同训练后 LAP-3B+VQA 在 LIBERO 上达到 97.2%,高于无 VQA 版本的 96.8%。

训练规模

训练数据混合:Open X-Embodiment(85.26%)+ MolmoAct(1.73%)+ 其他。在 64 块 TPU v6e 上训练约 10 小时,遍历完整数据集约 0.65 个 epoch,学习率 1×10⁻⁴(线性 warmup),批大小 2048。

03 实验

实验在 4 种机械臂(1 个训练时见过 + 3 个全新)上进行,共设计 6 类真实操作任务,累计超过 1300 次真机试验。基线分为两类:① 现有开源 VLA(π0.5-DROID/Base、X-VLA、MolmoAct、OpenVLA);② 使用相同架构与数据重新训练的 replicated 基线(π0.5-replicated、π0-replicated、VLA-0-replicated)。

零样本跨机器人迁移(Section 4.1)

Zero-shot cross-embodiment performance
图 3:零样本跨机器人泛化性能对比。LAP-3B 在训练时见过的 DROID 机械臂上达到与 π0.5-DROID 相当的性能,而在三个全新机械臂(Custom Franka、YAM、Kinova)的六类任务上均超过 50% 平均成功率。所有现有开源 VLA 在新机器人上的成功率均为 0%。
Embodiment是否训练时见过LAP-3Bπ0.5-replicatedπ0-replicated
DROID~42%~27%~27%
Custom Franka~55%~25%~15%
YAM~50%~20%~10%
Kinova~52%~18%~8%

微调效率(Section 4.2)

在 LIBERO 仿真基准上,LAP-3B 仅需 1 个 epoch 就达到 78% 成功率,6 个 epoch 达到 96.8%,显著快于基线。在真机任务(YAM 上的 "Hang Tape on Rack")上,LAP-3B 使用约 20 个演示样本即可达到 50% 任务进度,而基线需要约 50 个演示。整体来看,LAP-3B "achieves comparable task performance using approximately 2.5× fewer demonstrations."

LIBERO 仿真基准对比(Table 3)

方法SpatialObjectGoalLIBERO-10平均
X-VLA98.298.697.897.698.1
TraceVLA84.685.275.154.174.8
LAP-3B98.299.098.891.296.8
LAP-3B + VQA Co.99.099.097.293.497.2

表征分析(Section 4.3)

T-SNE representation visualization
图 5(a):T-SNE 可视化。LAP-3B 的表征中训练机器人与未见机器人的特征高度重叠,而 π0.5-replicated 的表征呈现明显的机器人特定聚类。动作预测误差:LAP-3B 为 0.151,π0.5-replicated 为 0.168,π0-replicated 为 0.189。

Scaling 行为(Section 4.5)

Model scaling behavior
图 7:模型规模扩展对比(LAP vs. π0.5-replicated)。左图为 token 验证损失(相对 4B 模型的百分比下降),右图为 diffusion 动作专家的连续动作验证损失。LAP 随参数量(4B→12B→27B,基于 Gemma3)单调改善,而 π0.5-replicated 基线在大规模时出现 "early saturation and even degradation"。

04 局限性

Note: 以下局限性均为作者在论文中明确陈述(stated by authors)。
仅针对单臂操作,暂未验证双臂系统

论文 "focuses only on zero-shot transfer across single-arm manipulators"。作者指出 LAP 原则上可扩展至双臂系统以及缺乏精确控制信号的数据源(如人体姿态、UMI 数据、纯视频),但这些方向尚待系统探索。

未评估高控制频率或极高精度任务

LAP-3B 目前尚未在"requiring substantially higher control frequency or extreme precision"的任务上测试,例如快速反应控制或精细柔性物体操作。当前以 25 Hz 运行,是否满足此类场景的需求尚不明确。

语言动作标注的精度上限(设计层面推断)

(inferred from design)将连续动作离散化为自然语言模板会引入量化误差。论文指出语言动作"naturally tolerate lower-quality labels",这在利用噪声数据时是优势,但在需要亚毫米级精度的任务中可能构成瓶颈。对此影响的系统性研究仍属开放问题。