机器人 · Robotics · arXiv 2025

Align-Then-stEer (ATE)

通过统一隐空间引导,高效迁移 Vision-Language-Action 模型
Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li  ·  China Telecom AI Institute · Tsinghua · CUHK-Shenzhen · NPU

ATE 是一个即插即用的 VLA 适配框架:首先利用非对称 VAE 将不同机器人平台的动作空间对齐到统一隐空间,再通过 classifier guidance 将扩散/流式 VLA 的生成过程导向目标分布,从而以极少数据实现跨任务与跨机器人的高效迁移。在仿真 RoboTwin 与 ManiSkill 基准上平均提升 9.8%,在真实双臂 RealMan 机器人跨机器人场景中提升 32% 成功率。

RoboTwin 1.0 · ManiSkill3 双臂 RealMan 7-DoF 机器人 π₀ · RDT-1B · Diffusion Policy 📄 arXiv:2509.02055
VLA Vision-Language-Action 机器人操作 cross-embodiment 迁移 diffusion policy VAE 隐空间对齐 classifier guidance 跨任务适配 data-efficient fine-tuning

01 动机 Motivation

大规模预训练的 Vision-Language-Action(VLA)模型在通用机器人控制上展现出巨大潜力,但将其适配到新机器人平台或新任务时面临两大核心挑战:动作空间异构(不同机器人的 DoF、动作量纲、频率均不同)与数据稀缺(现实中目标任务数据往往只有数十条轨迹)。直接在目标任务上 fine-tune 往往导致灾难性遗忘,丢失预训练阶段习得的视觉-运动先验。

"Unlike prior methods that directly fine-tune VLAs, ATE aligns disparate action spaces into a unified latent representation and steers the VLA's generation via guidance, enabling data-efficient cross-task and cross-embodiment adaptation."
ATE teaser figure
Figure 1:ATE 是一个即插即用框架,无需修改原始 VLA 架构。它在 RoboTwin、ManiSkill 仿真基准与真实双臂 RealMan 7-DoF 机器人上均取得显著成功率增益,并支持长时序操作任务。
+9.8%RoboTwin 1.0 平均成功率(RDT-1B backbone)
+8.7%RoboTwin 1.0 平均成功率(π₀ backbone)
+32%真实跨机器人场景(π₀,120k steps)
+10.2%ManiSkill3 平均成功率(RDT-1B backbone)

02 方法 Method

ATE 分两个阶段:Stage 1 利用非对称 VAE(Info-VAE)将预训练阶段与适配阶段的动作空间统一到同一隐空间;Stage 2 在 fine-tuning 时引入 classifier guidance,将扩散/流式 VLA 的去噪过程向目标隐空间的 mode 导引,同时保留预训练积累的视觉-运动先验。整个额外计算量仅来自两个轻量 VAE,对原始 VLA 架构零改动。

Stage 1 — 统一动作隐空间(Unified Action Latent Space)

Stage 1: Unified Action Latent Space
Figure 2(a):第一阶段使用两个非对称 VAE:一个在大规模预训练数据上训练得到"预训练隐空间",另一个在目标任务数据上训练并受反向 KL 散度约束(mode-seeking),将适配阶段的动作分布压缩到预训练隐空间的某个 mode 内,从而在隐空间层面消除跨机器人的 embodiment gap。

第一阶段的关键设计在于使用反向 KL 散度(reverse KL)约束适配 VAE,令其具有 mode-seeking 行为。这确保适配动作的隐表示落在预训练隐空间的高密度区域,而非分散到各处,从而保证下游引导信号的有效性。两个 VAE 均为轻量结构,训练成本远低于 VLA 本身。

Stage 2 — 分类器引导(Classifier Guidance for Steering)

Stage 2: Classifier Guidance
Figure 2(b):第二阶段在 fine-tuning 期间,将 Stage 1 得到的统一隐空间作为引导信号源,计算梯度 g 并在每个去噪步骤 k 上施加于 VLA 的噪声预测。这一梯度将 VLA 输出推向"目标分布在统一隐空间中的 mode",在保留预训练先验的同时迅速收敛到新任务。

在推理阶段,classifier guidance 梯度 g 无需目标动作标注(标注仅用于训练 VAE),因此推理过程与标准 VLA 相同,无额外延迟。这一设计对 diffusion policy 与 flow matching 两类生成框架均适用,与 backbone 选择无关。

03 实验 Experiments

实验在三个层面验证 ATE:(1)仿真基准 RoboTwin 1.0(17 个任务)与 ManiSkill3(2 个任务);(2)真实双臂 RealMan 7-DoF 机器人(4 个任务);(3)鲁棒性测试(光照变化、视觉干扰、人工干预)。Backbone 选取 RDT-1B、π₀、Diffusion Policy。适配数据仅 50 条/任务(仿真)或 50 条/任务(真实)。

RoboTwin 1.0 仿真基准(节选)

任务RDT-1BRDT+ATEπ₀π₀+ATE
Block Hammer Beat52%71% (↑19)38%44% (↑6)
Block Handover69%91% (↑22)80%92% (↑12)
Blocks Stack (Easy)10%31% (↑21)30%50% (↑20)
Dual Bottles Pick (Easy)76%87% (↑11)48%85% (↑37)
Empty Cup Place22%61% (↑39)32%36% (↑4)
Put Apple Cabinet20%45% (↑25)34%55% (↑21)
Bottle Adjust53%37% (↓16)39%45% (↑6)
平均(17 任务)31.8%41.6% (↑9.8)36.1%44.8% (↑8.7)

ManiSkill3 仿真基准

任务RDT-1BRDT+ATE
Push Cube65.2%78.4% (↑13.2)
Pick Cube7.6%14.8% (↑7.2)
平均36.4%46.6% (↑10.2)

真实机器人实验(Real-World)

Real-world evaluation results
Figure 4:真实双臂 RealMan 7-DoF 机器人上的结果。上方为四个任务在不同训练步数下的成功率曲线(ATE vs. π₀ baseline);下方展示长时序、单臂、双臂等代表任务的完整执行轨迹。ATE 在 120k steps 时平均成功率达 58.1%,而 baseline 仅为 16.7%。

训练收敛速度对比(Diffusion Policy Backbone)

Training convergence curves
Figure 3:在分布内(in-distribution)与分布外(out-of-distribution)任务上,ATE 变体(蓝色)相比 Diffusion Policy baseline(橙色)在各检查点均取得更高成功率,且收敛更快。在难度较高的任务(如 shoe place)100 epochs 时成功率接近翻倍。

Ablation:两阶段 Info-VAE 的必要性

Ablation study
Figure 6:消融研究对比"两阶段 Info-VAE"(先在预训练数据上训练,再用反向 KL 对齐适配数据)与"单阶段 VAE"(仅在目标任务数据上训练)。两阶段方案在 π₀ 与 Diffusion Policy 两个 backbone 上均显著优于单阶段,验证了统一隐空间对跨机器人迁移的关键作用。

消融结果表明,两阶段 Info-VAE 设计是性能提升的核心:仅靠单阶段 VAE(缺乏与预训练隐空间的对齐约束)无法有效保留预训练先验,导致长时序任务和高难度任务的成功率显著下降。

04 局限性 Limitations

Note:论文未设专门的 Limitations 节。以下条目中,标注"stated"者来自论文正文的明确描述,标注"inferred"者为根据方法设计合理推断。
依赖预训练阶段动作数据(stated)

Stage 1 的预训练 VAE 需要访问预训练阶段的动作数据以构建统一隐空间。若预训练数据不可获取(如闭源 VLA),则无法复现完整的对齐流程。论文使用 OXE subset、DROID、Kuka、ALOHA 等公开数据集进行 VAE 训练(3000 episodes)。

部分任务存在负向迁移(stated)

在 RoboTwin 1.0 上,少数任务出现性能下降:Bottle Adjust(RDT: 53% → 37%,↓16)、Blocks Stack Hard(π₀: 8% → 7%,↓1)、Tool Adjust(π₀: 70% → 69%,↓1)。这说明当目标任务动作分布与预训练隐空间的 mode 差异较大时,强制对齐可能带来负面效果。

真实实验规模与任务多样性有限(inferred)

真实机器人实验仅在双臂 RealMan 7-DoF 平台上进行,任务局限于厨房场景(Cook Bun、Pick Bun、Make Sandwich、Use Toaster),鲁棒性测试每种条件仅 5 trials。跨平台(如不同 DoF 或移动底盘)的泛化能力尚未验证。

推理阶段 VAE 解码开销(inferred)

虽然论文声称 ATE 引入"可忽略的额外开销",但 Stage 2 的 classifier guidance 在每个去噪步骤 k 需要计算梯度 g,实时部署时可能对推理延迟产生影响,论文未给出量化延迟数据。