机器人 · Robotics · arXiv 2507.13340

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

利用光流预训练形态无关世界模型,通过隐空间引导大幅提升少样本机器人操作策略
Yiqi Wang, Mrinal Verghese, Jeff Schneider  ·  Carnegie Mellon University  ·  2025

机器人视觉运动策略对大规模特定形态训练数据的依赖严重制约了其实际部署。本文提出 Latent Policy Steering (LPS): 以光流(optical flow)作为形态无关的动作表征,在多形态跨域数据上预训练世界模型,再通过少量目标形态演示进行微调; 推理时借助世界模型对多条行动规划进行隐空间评估,引导 diffusion policy 选择最优动作。 真实场景下,LPS 以 30–50 条演示即实现相对行为克隆基线 70% 的相对提升。

arXiv 2025 机器人操作 Robomimic + 真实 Franka 📄 arXiv:2507.13340 PDF
latent policy steering world model optical flow embodiment-agnostic diffusion policy behavior cloning robot manipulation 跨形态迁移

01 动机

收集特定机器人形态的大规模演示数据成本高昂,而现有跨形态数据集因动作空间不一致、形态差异大,难以被直接利用。 如何从已有多形态数据中提炼可迁移的"技能先验",以极少量目标形态演示即可大幅提升策略性能,是本文的核心出发点。

"Skills performed across different embodiments produce visual similarities in motions that can be captured using off-the-shelf action representations such as optical flow."
optical flow as action
图 1:光流作为形态无关的动作表征。 不同机器人手臂(IIWA、UR5e、Kinova3、Franka)执行"抓取杯子"时, 光流向量在视觉空间中呈现高度相似的模式——物体与末端执行器周围的流场形态接近, 即使机械结构完全不同。这一观察是 LPS 方法的核心动机。
70%真实场景相对提升
(30–50 条演示)
44%真实场景相对提升
(60–100 条演示)
10.6%Robomimic 仿真平均
相对提升
4 tasks真实 Franka 机器人
操作任务评估

02 方法

LPS 分三步:① 以光流为动作表征在多形态数据上预训练视觉世界模型; ② 用少量目标形态演示微调世界模型并训练 Robust Value Function; ③ 推理时对 diffusion policy 采样的多条动作规划进行隐空间评估,选取价值最高的计划执行。

Flow-as-Action:形态无关的世界模型预训练

传统世界模型以具体机器人动作(如关节角度或末端位姿)为条件,无法直接跨形态迁移。 LPS 将光流替换为动作输入:卷积编码器将光流场压缩为 n 维向量(n 等于目标形态的动作空间维度), 迫使网络捕获与形态无关的显著运动特征,同时抑制噪声和形态差异。 该设计使预训练数据可来自任意机器人甚至人类演示。

目标形态微调与 Robust Value Function

在获得少量目标形态(如 Franka)演示后,将光流编码器替换为归一化的机器人真实动作, 同时联合训练世界模型与价值函数。 价值函数需处理 distribution shift 问题——推理时策略访问的状态可能偏离训练分布。 为此,作者设计了Robust Value Function,同时在专家演示状态和策略访问状态上训练, 并引入 cosine similarity 奖励惩罚偏离专家轨迹的行为:

"rt:t+h′ = rt:t+h + (sim(st:t+h, st:t+h′) − 1) / 2"

其中 st:t+h 为专家隐状态序列,st:t+h′ 为策略在世界模型中展开的状态。 该奖励促使价值函数在 out-of-distribution 状态下仍能给出保守估计,避免高估偏差。

推理时隐空间策略引导(Latent Policy Steering)

给定当前观测,从 diffusion policy 采样 B 条候选动作规划,规划长度为 h。 世界模型将每条规划在隐空间中前向展开,得到未来隐状态序列, 再由价值函数以加权平均(未来时刻权重更大)计算规划级价值。 执行价值最高的规划前 1 步后重新规划,实现滚动决策。

embodiment scaling
图 3:形态数量对性能的影响(Embodiment Scaling)。 在 Robomimic 上评估不同预训练形态组合(IIWA、UR5e、Kinova3)对 Franka 目标策略的提升效果。 随着预训练混合数据中形态种类增加,LPS 性能稳步提升,验证了多形态预训练的可扩展性。

03 实验

实验在两个场景下评估:① Robomimic 仿真(Lift / Can / Square / Transport), 预训练使用 IIWA、UR5e、Kinova3 三种形态,目标形态为 Franka; ② 真实 Franka 机器人上的 4 个操作任务。 基线为行为克隆(BC),对比方法为 LPS-mix(使用混合多形态预训练数据)。

真实世界实验(Table I)

real-world tasks
图 2:真实世界实验任务。 四个任务:(a) Put-radish-in-pot,(b) Sweep-salad-off-the-board, (c) Scoop-beads-with-spoon,(d) Fold-towel-to-triangle。 每任务评测 20 次。
任务 BC(30–50 条演示) LPS-mix(30–50 条) BC(60–100 条演示) LPS-mix(60–100 条)
Put-radish-in-pot7/2011/2013/2019/20
Sweep-salad4/206/206/2011/20
Scoop-beads6/2010/2013/2016/20
Fold-towel0/202/209/2013/20
平均21.2%36.2%51.2%73.8%

在 30–50 条演示下,LPS-mix 相对 BC 实现 70% 相对提升(21.2% → 36.2%); 60–100 条演示下实现 44% 相对提升(51.2% → 73.8%)。

Robomimic 仿真实验(Table II,50 条 Franka 演示)

任务BCLPS-mix
Lift82.0±6.284.4±10.8
Can76.7±2.185.8±4.1
Square44.8±6.549.0±6.4
Transport25.8±1.634.6±3.6
平均57.3%63.4%

四个任务平均实现 10.6% 相对提升,预训练数据大部分来自真实世界场景而非仿真。

消融实验

光流 vs. EEF 动作(Table III): 以光流预训练的世界模型(LPS-sim flow,均值 62.4%)优于以末端位姿(EEF)预训练版本(59.1%), 在 Square 任务上差距最显著(52.4% vs. 45.3%),验证了光流作为形态无关表征的优越性。

价值函数设计(Table IV,100 条演示无预训练): 完整 LPS(均值 68.7%)优于 LPS-vanilla(65.2%)和 LPS-bootstrap(64.3%), 而 BC 基线为 62.9%。分布偏移惩罚项对最终性能贡献最大。

horizon analysis
图 4:不同规划 horizon 下的 LPS 性能。 在 horizon 4–16 范围内,LPS 持续优于 BC 基线; horizon 24 时性能下降,原因是更长的 rollout 导致 cosine similarity 奖励信号噪声累积。

04 局限性

Note: 以下局限性均为论文作者明确陈述(stated)。
光流在遮挡场景下失效

光流无法可靠捕捉遮挡情况下的运动,例如机器人手臂遮住目标物体时, 流场噪声大幅增加,导致形态无关表征质量下降,进而影响世界模型预训练效果。

光流具有视角依赖性

相同技能从不同摄像机角度观测会产生截然不同的光流模式, 限制了多视角或移动平台场景下的泛化能力。 此外,相机本身运动(如移动机器人)会引入额外的全局光流噪声。

依赖多模态策略(Multimodal Policy)

LPS 需要策略能够生成多条多样化的候选动作规划(如 diffusion policy), 在少量演示场景下单模态策略(unimodal policy)的多样性不足, 隐空间引导的改进效果极为有限。

规划 Horizon 过长导致性能退化

如图 4 所示,horizon 超过 16 步后,由于 distribution shift 奖励信号的累积误差, 价值估计精度下降,LPS 性能出现退化,需谨慎选择规划长度超参数。