Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

01 动机 Motivation

当前机器人视觉表征方法主要依赖单帧图像或两帧图像学习，忽视了具身任务中至关重要的动态信息。视频扩散模型（VDM）在大规模互联网视频上预训练，隐含地理解了物理世界的演化规律，但如何将这种"未来预见"能力转化为 robot policy 的视觉表征，尚无有效方案。

"We hypothesize that VDMs contain both current static information and predicted future dynamics, which can provide more comprehensive guidance for robot policy learning."

teaser：VDM 表征 vs 先前视觉编码器 — 图 1：先前视觉编码器（左）只利用当前静态信息；VPP（右）通过视频扩散模型同时获得当前状态与预测的未来动态，形成更丰富的 predictive visual representation，为策略决策提供前瞻性信息。

+18.6%CALVIN ABC→D 相对先前 SOTA 提升

+31.6%真实灵巧操作任务成功率提升

4.33CALVIN 平均完成任务数（先前 SOTA: 3.35）

1.5BVDM 基础模型参数量（Stable Video Diffusion）

02 方法 Method

VPP 分两阶段：首先在机器人与人类操作数据上微调视频扩散模型，使其具备文本引导的视频预测能力（TVP）；然后以 TVP 的内部 latent 特征作为视觉编码器，通过 Video Former 聚合时空信息，最终由 Diffusion Policy 输出动作序列。

VPP 两阶段训练流程 — 图 2：VPP 整体流程。Stage 1 — 在多样化数据集上微调 Stable Video Diffusion，加入 language conditioning via cross-attention，得到 Text-guided Video Prediction（TVP）模型。Stage 2 — 冻结 TVP，以其 up-sampling layers 的 latent 特征拼接为聚合表征 F_p，经 Video Former 压缩后输入 Diffusion Policy Head 生成动作。

Stage 1：Text-guided Video Prediction (TVP)

以 Stable Video Diffusion（1.5B 参数）为基础，通过 cross-attention 引入语言条件，在三类数据集上联合训练：

互联网人类操作数据：193,690 条轨迹，提供丰富的物理先验
机器人数据：179,074 条轨迹（BridgeV2、Open X-Embodiment 等）
下游任务视频：用于域适应

训练目标是从带噪样本重建完整视频序列，使模型在 single forward pass 中生成当前帧与未来帧的联合 latent 表征。

Stage 2：Video Former + Diffusion Policy Head

TVP 充当"视觉编码器"，约 140ms 完成一次前向推理，提取多个 up-sampling layers 的 latent 特征并拼接为 F_p。 Video Former 利用可学习 token 通过 spatial attention 与 temporal attention 对 F_p 进行时空聚合，压缩多视角信息，无需逐帧生成完整视频（相比 SuSIE 快 3.2×）。 Diffusion Policy Head 通过 cross-attention 将聚合表征与语言指令结合，生成连续的动作序列，以去噪扩散过程输出 6-DoF 末端执行器轨迹。

图 4：TVP 单步前向预测的可视化。虽然单步预测的视频画面并不清晰，但其 latent 特征已编码了物体的物理演化信息（如滑块位置、物体朝向），对策略学习具有有效的引导作用。

03 实验 Experiments

在四类平台上系统评估 VPP：仿真基准 CALVIN（跨环境泛化）与 MetaWorld（50 任务多任务操作），以及真实硬件 Franka Panda 机械臂（30+ 任务）和灵巧手（100+ 任务）。与 RT-1、Diffusion Policy、GR-1、RoboUniview、SuSIE、Vidman 等基线对比。

Benchmark	Prior SOTA	VPP（本文）	相对提升
CALVIN ABC→D 平均完成任务数	3.35 (RoboUniview)	4.33	+29.3%
CALVIN 10% 数据	1.41 (GR-1)	3.25	+130.5%
MetaWorld 平均成功率	57.4% (GR-1)	68.2%	+10.8%
Franka 已见任务成功率	52% (GR-1)	85.6%	+64.6%
灵巧手已见任务成功率	32% (GR-1)	74.9%	+134.1%
灵巧手工具使用任务	15% (GR-1)	68%	+353.3%

CALVIN 与 MetaWorld 任务场景 — 图 3：CALVIN（左）与 MetaWorld（右）任务环境。CALVIN 要求跨 4 个视觉不同场景（A/B/C/D）的泛化能力；MetaWorld 涵盖 50 种不同的机械臂操作任务。

真实硬件平台 — 图 5：真实硬件评估平台。左：Franka Panda 机械臂执行日常操作任务（如折叠布料、打开抽屉）。右：灵巧手执行精细操作（如使用剪刀、旋紧瓶盖），VPP 在灵巧手工具使用任务上比 GR-1 高出 53 个百分点（68% vs 15%）。

预测轨迹与实际执行轨迹对比 — 图 6：预测轨迹（红色）与实际执行轨迹（绿色）对比，两者高度吻合，说明 TVP 所学习的预测性表征确实捕捉了物体运动的物理规律。

消融实验 Ablations

在 CALVIN 基准上的关键消融（以平均完成任务数衡量）：

配置	CALVIN 平均任务数	相对完整版本
完整 VPP	4.33	—
去掉互联网数据	3.97	−8.3%
去掉 SVD 预训练（随机初始化）	1.63	−62.4%
去掉 Video Former（改用所有帧特征）	3.86	−10.9%，推理速度慢 3.2×
以 VAE 替换 VDM	2.58	−40.4%
以 VC-1 编码器替换	1.23	−71.6%
仅用最后一层特征	3.60	−16.9%

消融结果揭示：SVD 大规模预训练是最关键的性能来源（去掉后性能下降 62.4%）；Video Former 对效率与性能均有重要贡献；多层特征融合优于只用最后一层。

04 局限性 Limitations

注意：论文未设专门的 Limitations 章节。以下第 1 条为作者在正文中明确提及的局限，第 2–3 条为从系统设计中推断的潜在约束，已标注来源。

单步预测视觉质量有限（作者明确提及）

作者指出，单步前向预测"do not yield clear video"，生成的预测帧较为模糊。尽管如此，实验表明其 latent 特征已足够编码物理演化信息，对策略学习仍有指导价值。但若任务需要高精度视觉预测，此局限可能影响表现。

推理延迟较高（设计推断）

TVP 单次前向推理约需 140ms，对控制频率有影响。虽然相比 SuSIE 等需要多步去噪的方法快 3.2×，但对于需要高频控制（>10Hz）的任务（如高速避障、接触丰富操作）仍是瓶颈。

依赖大规模预训练数据与算力（设计推断）

VPP 的性能高度依赖 Stable Video Diffusion 在海量互联网视频上的预训练（消融去掉 SVD 预训练后性能下降 62.4%）。这意味着方法对计算资源要求较高，难以在资源受限场景下从头训练或快速迁移到全新领域。