机器人 · Robotics · arXiv 2025

Video Generators are Robot Policies

将视频生成用作机器人策略学习的代理任务
Junbang Liang, Pavel Tokmakov, Ruoshi Liu, Sruthi Sudhakar, Paarth Shah, Rares Ambrus, Carl Vondrick  ·  Columbia University & Toyota Research Institute

Video Policy 提出一个模块化框架,将视频生成与动作生成联合训练——通过学习"生成机器人执行任务的视频"作为代理目标,用极少的演示数据即可习得高度泛化的操作策略,在仿真与真实环境中均显著超越传统 behavior cloning 方法。

2025 · arXiv Stable Video Diffusion (SVD) RoboCasa · Libero10 📄 arXiv:2508.00795
视频生成 机器人策略 visuomotor policy video diffusion imitation learning sample efficiency generalization Stable Video Diffusion

01 动机 Motivation

当前 visuomotor policy 面临两大核心挑战:(1)在感知或行为分布偏移下泛化能力差;(2)性能高度依赖大规模人类演示数据集。这两点制约了机器人策略在真实场景中的可扩展性与鲁棒性。

"Despite tremendous progress in dexterous manipulation, current visuomotor policies remain fundamentally limited by two challenges: they struggle to generalize under perceptual or behavioral distribution shifts, and their performance is constrained by the size of human demonstration data."

作者的核心观察是:视频生成是比动作生成更通用的目标。学会预测机器人执行任务的视频,可以从无动作标注的视频数据中学习环境动力学,进而以极少有动作标注的演示数据完成策略提取。这一思路将互联网规模的视频生成预训练引入机器人学习,提供近乎无限的动作无关数据来源。

Video Policy teaser
图 1:视频生成作为机器人策略学习的代理任务。给定初始观测图像与自然语言任务描述,模型同时生成机器人执行任务的视频(上)与机器人动作序列(中),通过独立的扩散网络实现。模块化设计支持从无动作视频数据中学习,提升对未见场景的泛化能力,是传统 behavior cloning 的可扩展替代方案。
0.66RoboCasa avg. success (300 demos)
0.94Libero10 avg. success rate
50demos 即可超越多数 baseline
优于 GR00T (0.50 → 0.66)

02 方法 Method

Video Policy 由两个模块化扩散网络组成:Video U-Net(μθ)负责生成未来帧序列,Action U-Net(αθ)以视频特征为条件解码机器人动作。两者联合训练,视频生成网络的中间特征直接为动作预测提供丰富的时空表征。

Video Policy architecture
图 2:Video Policy 整体架构。模型以初始环境状态图像与未来帧/动作的噪声向量作为输入,联合扩散视频帧与动作序列。帧的表征通过五个等间距的 decoder 层(layers 9, 14, 17, 20, 23)提取,经 CNN adapter 处理后作为条件信号输入 Action U-Net,引导动作去噪。模块化设计使两个网络可以分阶段训练,支持无动作视频数据的利用。

视频生成模块(Video U-Net μθ

基于 Stable Video Diffusion (SVD) 构建,通过 cross-attention 接受两类条件输入:(1)自然语言任务描述的 CLIP embedding;(2)连结并经 VAE 编码的初始观测图像。在机器人演示数据上 fine-tune 后,模型学会生成符合任务语义的执行视频序列,并在此过程中隐式编码环境动力学。

动作解码模块(Action U-Net αθ

1D CNN U-Net,从视频解码器五个等间距层抽取时空特征,经 CNN adapter 后输入动作 U-Net,对动作噪声进行去噪以预测连续控制量。训练时对视频网络采用梯度截断(gradient stopping),防止动作损失反向传播影响视频模型,保持视频生成质量。

两阶段训练策略

Stage 1:在全量视频数据(含无动作标注视频)上 fine-tune 视频扩散模型,学习丰富的环境动力学表征。Stage 2:冻结视频网络权重,仅训练动作解码头,从少量有标注演示中提取策略。消融实验(Table 3)证明此两阶段策略相比联合训练(joint)提升 success rate 从 0.57 → 0.63,而完全跳过视频 fine-tuning 则性能崩溃至 0.09。

03 实验 Experiments

在 RoboCasa(24 个任务,涵盖 Pick&Place、Doors、Drawers、Knobs、Buttons 等多类别)与 Libero10 两个 benchmark 上评测;真实环境测试 5 项操作任务,评估对物体位置、外观与背景的泛化能力。主要 baseline 包括 DP-ResNet、DP-CLIP、GR00T、DP-VLA、UVA 等。

RoboCasa 量化结果(Table 1,平均任务成功率)

方法3DADP3DP-ResNetGR00TFPVDP-VLAUVAOurs (50)Ours (300)
Avg. Success Rate0.060.230.410.500.510.570.500.630.66

使用 50 个演示的 Video Policy 即超越了所有使用更多数据的 baseline;300 个演示版本进一步达到 0.66,高于最强 baseline DP-VLA(0.57)约 16%。

Libero10 量化结果(Table 2)

方法DP-CDP-TOpenVLAUniPiπ₀π₀-FASTUVAOurs
Avg. Success Rate0.530.580.540.000.850.600.900.94

消融实验(Table 3,RoboCasa)

变体Avg. Success Rate
No Video Tuning0.09
Joint(联合训练)0.57
2-Stage(本文方法)0.63

作者指出:"learning to generate policy-execution videos is both necessary and sufficient"——无视频 fine-tuning 时成功率仅 0.09,说明视频生成目标是提取有效策略的核心。

视频预测 horizon 的影响

generalization to unseen tasks
图 4:基于无动作视频数据的任务泛化。Video Policy 与 baseline DP-ResNet 均仅在 24 个 RoboCasa 任务中的 12 个上训练动作监督,但 Video Policy 的视频生成模型额外使用全部 24 个任务的无动作视频。结果表明 Video Policy 在未见任务(图右侧)上实现了显著的泛化,而无法利用无动作数据的 DP-ResNet 几乎无法泛化到未见任务。

真实环境结果(Table 4,5 项任务 × 3 类泛化条件)

任务物体位置变化未见物体外观未见背景颜色
Open Drawer0.81.00.9
Pick and Place1.00.90.8
M&Ms to Cup0.80.90.2
Upright Object0.30.70.8
Stack Cups0.30.20.2
real-world qualitative results
图 5:Pick and Place 真实环境定性结果。Video Policy 在物体位置、外观与背景颜色三类分布偏移下均展现出强鲁棒性。

04 局限性 Limitations

Note: 以下局限性均为作者在论文中明确陈述(stated by the authors)。
规模受限:仅单一真实机器人平台与有限仿真 benchmark

"Our study has several limitations. First, it is restricted in the scale of simulation benchmarks and a single real-world embodiment." 当前验证仅覆盖 RoboCasa 和 Libero10 两个仿真 benchmark 以及一种真实机器人平台,结论能否推广到更广泛的任务场景仍有待验证。

仅探索了 Stable Video Diffusion 一种视频生成模型

"Additionally, we explore only one instantiation of video generation models — Stable Video Diffusion (SVD). While our analysis is more extensive than prior works, broader validation across tasks, environments, and model families would further strengthen the findings." 不同视频生成模型架构(如 DiT-based 模型)是否同样有效尚未验证。

推理速度慢,当前不适合实时部署

"The computational cost of video diffusion models remains a major practical bottleneck, particularly for real-world deployment." 当前实现在 256×256 分辨率下生成 25 帧约需 9 秒,远无法满足实时控制需求。作者指出扩散推理加速方向(如 consistency distillation)有望缓解此问题,但尚未集成。