ICML 2025 Spotlight · 机器人操作

Video Prediction Policy

A Generalist Robot Policy with Predictive Visual Representations
Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen  ·  UC Berkeley / Shanghai AI Lab / 清华大学

VPP(Video Prediction Policy)将视频扩散模型(Video Diffusion Model, VDM)中蕴含的预测性视觉表征用于机器人策略学习,使 policy 同时感知当前状态与未来动态。在 CALVIN ABC→D 泛化基准上,VPP 比先前 SOTA 提升 18.6%;在真实灵巧手操作任务中成功率提升 31.6%

arXiv: 2412.14803 ICML 2025 Spotlight 提交: 2024-12-19 📄 arXiv:2412.14803
video prediction policy video diffusion model predictive visual representation diffusion policy robot manipulation imitation learning 通用机器人策略 视频扩散模型 预测性表征

01 动机 Motivation

当前机器人视觉表征方法主要依赖单帧图像或两帧图像学习,忽视了具身任务中至关重要的动态信息。视频扩散模型(VDM)在大规模互联网视频上预训练,隐含地理解了物理世界的演化规律,但如何将这种"未来预见"能力转化为 robot policy 的视觉表征,尚无有效方案。

"We hypothesize that VDMs contain both current static information and predicted future dynamics, which can provide more comprehensive guidance for robot policy learning."
teaser:VDM 表征 vs 先前视觉编码器
图 1:先前视觉编码器(左)只利用当前静态信息;VPP(右)通过视频扩散模型同时获得当前状态与预测的未来动态,形成更丰富的 predictive visual representation,为策略决策提供前瞻性信息。
+18.6%CALVIN ABC→D 相对先前 SOTA 提升
+31.6%真实灵巧操作任务成功率提升
4.33CALVIN 平均完成任务数(先前 SOTA: 3.35)
1.5BVDM 基础模型参数量(Stable Video Diffusion)

02 方法 Method

VPP 分两阶段:首先在机器人与人类操作数据上微调视频扩散模型,使其具备文本引导的视频预测能力(TVP);然后以 TVP 的内部 latent 特征作为视觉编码器,通过 Video Former 聚合时空信息,最终由 Diffusion Policy 输出动作序列。

VPP 两阶段训练流程
图 2:VPP 整体流程。Stage 1 — 在多样化数据集上微调 Stable Video Diffusion,加入 language conditioning via cross-attention,得到 Text-guided Video Prediction(TVP)模型。Stage 2 — 冻结 TVP,以其 up-sampling layers 的 latent 特征拼接为聚合表征 F_p,经 Video Former 压缩后输入 Diffusion Policy Head 生成动作。

Stage 1:Text-guided Video Prediction (TVP)

以 Stable Video Diffusion(1.5B 参数)为基础,通过 cross-attention 引入语言条件,在三类数据集上联合训练:

训练目标是从带噪样本重建完整视频序列,使模型在 single forward pass 中生成当前帧与未来帧的联合 latent 表征。

Stage 2:Video Former + Diffusion Policy Head

TVP 充当"视觉编码器",约 140ms 完成一次前向推理,提取多个 up-sampling layers 的 latent 特征并拼接为 F_p。 Video Former 利用可学习 token 通过 spatial attention 与 temporal attention 对 F_p 进行时空聚合,压缩多视角信息,无需逐帧生成完整视频(相比 SuSIE 快 3.2×)。 Diffusion Policy Head 通过 cross-attention 将聚合表征与语言指令结合,生成连续的动作序列,以去噪扩散过程输出 6-DoF 末端执行器轨迹。

单步前向预测的可视化
图 4:TVP 单步前向预测的可视化。虽然单步预测的视频画面并不清晰,但其 latent 特征已编码了物体的物理演化信息(如滑块位置、物体朝向),对策略学习具有有效的引导作用。

03 实验 Experiments

在四类平台上系统评估 VPP:仿真基准 CALVIN(跨环境泛化)与 MetaWorld(50 任务多任务操作),以及真实硬件 Franka Panda 机械臂(30+ 任务)和灵巧手(100+ 任务)。与 RT-1、Diffusion Policy、GR-1、RoboUniview、SuSIE、Vidman 等基线对比。

BenchmarkPrior SOTAVPP(本文)相对提升
CALVIN ABC→D 平均完成任务数3.35 (RoboUniview)4.33+29.3%
CALVIN 10% 数据1.41 (GR-1)3.25+130.5%
MetaWorld 平均成功率57.4% (GR-1)68.2%+10.8%
Franka 已见任务成功率52% (GR-1)85.6%+64.6%
灵巧手 已见任务成功率32% (GR-1)74.9%+134.1%
灵巧手 工具使用任务15% (GR-1)68%+353.3%
CALVIN 与 MetaWorld 任务场景
图 3:CALVIN(左)与 MetaWorld(右)任务环境。CALVIN 要求跨 4 个视觉不同场景(A/B/C/D)的泛化能力;MetaWorld 涵盖 50 种不同的机械臂操作任务。
真实硬件平台
图 5:真实硬件评估平台。左:Franka Panda 机械臂执行日常操作任务(如折叠布料、打开抽屉)。右:灵巧手执行精细操作(如使用剪刀、旋紧瓶盖),VPP 在灵巧手工具使用任务上比 GR-1 高出 53 个百分点(68% vs 15%)。
预测轨迹与实际执行轨迹对比
图 6:预测轨迹(红色)与实际执行轨迹(绿色)对比,两者高度吻合,说明 TVP 所学习的预测性表征确实捕捉了物体运动的物理规律。

消融实验 Ablations

在 CALVIN 基准上的关键消融(以平均完成任务数衡量):

配置CALVIN 平均任务数相对完整版本
完整 VPP4.33
去掉互联网数据3.97−8.3%
去掉 SVD 预训练(随机初始化)1.63−62.4%
去掉 Video Former(改用所有帧特征)3.86−10.9%,推理速度慢 3.2×
以 VAE 替换 VDM2.58−40.4%
以 VC-1 编码器替换1.23−71.6%
仅用最后一层特征3.60−16.9%

消融结果揭示:SVD 大规模预训练是最关键的性能来源(去掉后性能下降 62.4%);Video Former 对效率与性能均有重要贡献;多层特征融合优于只用最后一层。

04 局限性 Limitations

注意:论文未设专门的 Limitations 章节。以下第 1 条为作者在正文中明确提及的局限,第 2–3 条为从系统设计中推断的潜在约束,已标注来源。
单步预测视觉质量有限(作者明确提及)

作者指出,单步前向预测"do not yield clear video",生成的预测帧较为模糊。尽管如此,实验表明其 latent 特征已足够编码物理演化信息,对策略学习仍有指导价值。但若任务需要高精度视觉预测,此局限可能影响表现。

推理延迟较高(设计推断)

TVP 单次前向推理约需 140ms,对控制频率有影响。虽然相比 SuSIE 等需要多步去噪的方法快 3.2×,但对于需要高频控制(>10Hz)的任务(如高速避障、接触丰富操作)仍是瓶颈。

依赖大规模预训练数据与算力(设计推断)

VPP 的性能高度依赖 Stable Video Diffusion 在海量互联网视频上的预训练(消融去掉 SVD 预训练后性能下降 62.4%)。这意味着方法对计算资源要求较高,难以在资源受限场景下从头训练或快速迁移到全新领域。