LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer

01 动机

尽管 VLA 模型已在多机器人混合数据集上大规模预训练，"state-of-the-art VLAs still rarely function zero-shot on new robots"——哪怕只是换了一个夹爪或调整了摄像头位置，模型就会失效。问题根源在于：现有方法将 VLM 微调为直接预测连续动作或离散控制 token，这造成了"distributional mismatch"，因为 VLM 的预训练从未接触过电机级高频控制信号，也无法从这些信号中提取任何跨机器人通用的语义结构。

"Zero-shot cross-embodiment transfer depends critically on how we adapt a pre-trained VLM for motor control."

LAP teaser: zero-shot transfer across embodiments — **图 1：LAP 框架概览与零样本迁移效果。**LAP 将底层动作直接表示为自然语言，以此监督 VLM 骨干网络的预训练。LAP-3B 在训练时仅见过 DROID 机械臂，却能零样本控制 Custom Franka、YAM、Kinova 三种此前从未接触的机器人，完成多类真实操作任务。

>50%3 个新机器人的平均零样本成功率

~2×超越最强 VLA 基线的提升幅度

2.5×少于基线所需演示数量的微调效率提升

0%所有现有开源 VLA 在未见机器人上的零样本成功率

现有的五个开源 VLA（π0.5-DROID、π0.5-Base、X-VLA、MolmoAct、OpenVLA）在未见机器人上均完全失效，成功率均为 0%。这表明简单地增大数据规模并不能解决跨机器人泛化问题，关键在于动作表示的选择。

02 方法

LAP 的核心思路是：用结构化的自然语言短语描述末端执行器的运动（"language-action"），将该语言动作作为 VLM 的监督目标，使动作预测落回 VLM 擅长的语言生成任务上。同时配置一个轻量级 diffusion 动作专家将语言动作解码为连续控制信号，并通过"knowledge insulation"阻断梯度回传，保护 VLM 骨干的表征质量。

LAP architecture — **图 2：LAP-3B 架构与语言动作表示。**(a) VLM 骨干（PaliGemma-3B）以 cross-entropy 目标预测离散语言动作 token；轻量级动作专家以 flow-matching 目标将语言动作解码为连续动作；梯度从动作专家到 VLM 骨干被截断（knowledge insulation）。推理时仅运行动作专家，实现 25 Hz 实时控制。(b) DROID 数据集中语言动作样本示例，如 "move forward 5 cm"、"tilt left 20 degrees"。

语言动作（Language-Action）表示

语言动作采用固定模板 "<verb> <direction> <magnitude> <unit>"，例如 "move forward 5 cm" 或 "tilt left 20 degrees"，确定性地描述末端执行器的运动。该表示无需学习 tokenizer，直接由原始动作数据按坐标约定解析生成。其设计优势在于：语义结构与自然语言空间对齐，使 VLM 的预训练知识（方向感、数量感）可直接复用于跨机器人动作预测。

双模型推理与知识隔离

LAP-3B 由两个模块组成：① VLM 骨干（PaliGemma-3B）：以 cross-entropy 损失在语言动作 token 序列上训练，输出离散语言动作；② 轻量级 diffusion 动作专家：以 flow-matching 目标将语言动作解码为连续 7-DoF 控制信号，支持 25 Hz 实时执行。两模块之间通过 knowledge insulation 截断反向传播，防止动作专家的连续动作损失污染 VLM 骨干已习得的通用视觉-语言表征。

运动预测 VQA 协同训练

额外引入一个运动预测辅助任务（motion-prediction VQA）：给定两帧图像，模型预测描述其位移的语言动作。该目标作为逆向动力学自监督，进一步增强 VLM 骨干的动作感知能力。协同训练后 LAP-3B+VQA 在 LIBERO 上达到 97.2%，高于无 VQA 版本的 96.8%。

训练规模

训练数据混合：Open X-Embodiment（85.26%）+ MolmoAct（1.73%）+ 其他。在 64 块 TPU v6e 上训练约 10 小时，遍历完整数据集约 0.65 个 epoch，学习率 1×10⁻⁴（线性 warmup），批大小 2048。

03 实验

实验在 4 种机械臂（1 个训练时见过 + 3 个全新）上进行，共设计 6 类真实操作任务，累计超过 1300 次真机试验。基线分为两类：① 现有开源 VLA（π0.5-DROID/Base、X-VLA、MolmoAct、OpenVLA）；② 使用相同架构与数据重新训练的 replicated 基线（π0.5-replicated、π0-replicated、VLA-0-replicated）。

零样本跨机器人迁移（Section 4.1）

Zero-shot cross-embodiment performance — **图 3：零样本跨机器人泛化性能对比。**LAP-3B 在训练时见过的 DROID 机械臂上达到与 π0.5-DROID 相当的性能，而在三个全新机械臂（Custom Franka、YAM、Kinova）的六类任务上均超过 50% 平均成功率。所有现有开源 VLA 在新机器人上的成功率均为 0%。

Embodiment	是否训练时见过	LAP-3B	π0.5-replicated	π0-replicated
DROID	是	~42%	~27%	~27%
Custom Franka	否	~55%	~25%	~15%
YAM	否	~50%	~20%	~10%
Kinova	否	~52%	~18%	~8%

微调效率（Section 4.2）

在 LIBERO 仿真基准上，LAP-3B 仅需 1 个 epoch 就达到 78% 成功率，6 个 epoch 达到 96.8%，显著快于基线。在真机任务（YAM 上的 "Hang Tape on Rack"）上，LAP-3B 使用约 20 个演示样本即可达到 50% 任务进度，而基线需要约 50 个演示。整体来看，LAP-3B "achieves comparable task performance using approximately 2.5× fewer demonstrations."

LIBERO 仿真基准对比（Table 3）

方法	Spatial	Object	Goal	LIBERO-10	平均
X-VLA	98.2	98.6	97.8	97.6	98.1
TraceVLA	84.6	85.2	75.1	54.1	74.8
LAP-3B	98.2	99.0	98.8	91.2	96.8
LAP-3B + VQA Co.	99.0	99.0	97.2	93.4	97.2

表征分析（Section 4.3）

T-SNE representation visualization — **图 5(a)：T-SNE 可视化。**LAP-3B 的表征中训练机器人与未见机器人的特征高度重叠，而 π0.5-replicated 的表征呈现明显的机器人特定聚类。动作预测误差：LAP-3B 为 **0.151**，π0.5-replicated 为 0.168，π0-replicated 为 0.189。

Scaling 行为（Section 4.5）

Model scaling behavior — **图 7：模型规模扩展对比（LAP vs. π0.5-replicated）。**左图为 token 验证损失（相对 4B 模型的百分比下降），右图为 diffusion 动作专家的连续动作验证损失。LAP 随参数量（4B→12B→27B，基于 Gemma3）单调改善，而 π0.5-replicated 基线在大规模时出现 "early saturation and even degradation"。

04 局限性

Note: 以下局限性均为作者在论文中明确陈述（stated by authors）。

仅针对单臂操作，暂未验证双臂系统

论文 "focuses only on zero-shot transfer across single-arm manipulators"。作者指出 LAP 原则上可扩展至双臂系统以及缺乏精确控制信号的数据源（如人体姿态、UMI 数据、纯视频），但这些方向尚待系统探索。

未评估高控制频率或极高精度任务

LAP-3B 目前尚未在"requiring substantially higher control frequency or extreme precision"的任务上测试，例如快速反应控制或精细柔性物体操作。当前以 25 Hz 运行，是否满足此类场景的需求尚不明确。

语言动作标注的精度上限（设计层面推断）

（inferred from design）将连续动作离散化为自然语言模板会引入量化误差。论文指出语言动作"naturally tolerate lower-quality labels"，这在利用噪声数据时是优势，但在需要亚毫米级精度的任务中可能构成瓶颈。对此影响的系统性研究仍属开放问题。