机器人 · Robotics · arXiv 2025

Unified Video Action Model

一个模型,同时掌握视频生成与机器人动作预测
Shuang Li · Yihuai Gao · Dorsa Sadigh · Shuran Song  |  Stanford University

UVA 构建了一个统一的视频-动作潜在表征,并通过解耦的轻量级扩散解码头同时支持视频重建与动作预测。借助 masked training,单一模型可灵活切换策略学习、视频生成、正向/逆向动力学建模等多种任务,无需视频生成即可以极低延迟完成推理部署。

arXiv 2503.00200 submitted Feb 2025 · v3 Apr 2025 0.5B 参数 📄 arXiv:2503.00200 🌐 Project Page
robot policy learning video generation action prediction masked autoencoder diffusion policy 机器人操作 视频-动作联合模型 forward dynamics

01 动机

机器人学习领域长期面临一个根本矛盾:动作预测需要高时间频率的密集、精细推理,而视频生成需要高空间分辨率和大量计算资源。现有方法要么完全跳过视频生成(action-only policies),丢失了视觉场景动态的监督信号;要么先生成视频再预测动作(如 UniPi),导致推理速度慢且错误传播严重。

"We propose a joint video-action latent representation and decouple video-action decoding to achieve both accuracy and computational efficiency."
UVA Teaser
图1:Unified Video Action Model (UVA) 概览。 (a) UVA 采用联合视频-动作潜在表征与解耦解码架构:训练时视频和动作的 loss 同时监督共享 latent;部署时动作头独立运行,无需生成视频帧,实现高速推理。 (b) 通过 masked training,单一模型支持五种灵活的输入-输出组合,涵盖策略学习、视频生成、正/逆向动力学建模。
+20%PushT Multitask 成功率提升(vs. 最优基线)
+5%Libero10 成功率提升(vs. π₀)
95ms真实环境推理延迟(无需视频生成)
0.5B参数量(vs. π₀ 的 3.3B)

02 方法

UVA 由四个核心模块组成:历史编码器(Encode History)、masked autoencoder 观测预测器、解耦的视频与动作扩散解码头,以及支持多任务的 masked training 机制。训练时两种解码 loss 联合优化共享 latent;推理时只需运行轻量动作头,彻底消除视频生成的推理开销。

UVA Network Architecture
图2:UVA 网络架构。 历史观测帧经预训练 VAE(kl-f16)编码为 latent map,展平后投影为 N 维视觉 token;动作块对齐重复后同样投影为 N 个动作 token。未来帧经随机 masking 后送入 Transformer,得到联合视频-动作潜在表征 {Z}。随后两个独立扩散头分别重建视频帧和生成动作序列。语言条件任务(如 Libero10)通过 CLIP 编码后追加到 token 序列。

III-A 历史编码 (Encode History)

历史观测帧 {Ot−h+1, …, Ot} 通过预训练 VAE 编码器(kl-f16)编码为形如 ℝw×h×c 的 latent map,展平并经全连接层投影为 d 维向量,每帧表示为 N 个视觉 token。对于动作(采样频率高于观测),将动作块重复 M 次与视觉 token 对齐,经 FC 层投影为 N 个动作 token,作为 Transformer 的条件输入。

III-B Masked Autoencoder 观测预测

未来观测帧经与历史相同的方式编码,训练时对视觉 token 进行随机 masking,模型学习重建被遮盖的 token。Transformer 融合视频与动作信息,输出联合视频-动作潜在表征 Z。关键设计:跨所有视频帧在相同位置进行 masking,防止信息泄露。推理时模型从空序列出发自回归生成完整视频。对于语言条件任务,CLIP 编码的语言 token 追加到输入序列。

III-C 解耦视频与动作扩散 (Decoupled Diffusion)

与先生成视频再预测动作的层级式方案不同,UVA 使用两个独立的轻量级扩散解码器,均以共享 latent Z 为条件。训练时两路 loss 同步监督:

部署时只运行动作扩散头,无需执行视频生成,推理延迟与纯动作策略相当。

III-D Masked Training 多任务灵活目标

通过在输入端对未使用的模态进行 masking 并替换为可学习的 mask token,单一模型支持五种训练任务的灵活切换:

策略学习 (Policy Learning)

历史观测 + 历史动作 → 预测未来动作。核心机器人控制任务。

视频生成 (Video Prediction)

历史观测 + 历史动作 → 预测未来视频帧。视觉场景规划与想象。

正向动力学 (Forward Dynamics)

历史观测 + 历史动作 + 未来动作 → 预测未来视频。用于动作采样评分。

逆向动力学 (Inverse Dynamics)

历史观测 + 未来观测 → 预测连接动作。无需显式动作标注的场景。

03 实验

实验覆盖仿真与真实场景的单任务/多任务设置,评估 UVA 在策略学习、视频生成、正向/逆向动力学建模等方面的能力,并与 Diffusion Policy (DP-C, DP-UMI)、UniPi、π₀、OpenVLA 等基线进行对比。

策略学习结果 (Policy Learning)

场景任务最优基线UVA备注
仿真单任务PushT0.91 (DP-C)0.98+7.7%
仿真单任务Toolhang0.95 (DP-C)0.88略低于最优
仿真多任务PushT-M0.68 (DP-C)0.88+20%
仿真多任务Libero100.85 (π₀)0.90+5.9%,参数量仅 1/6
真实单任务UMI Cup0.95 (DP-UMI)0.85DP-UMI 含恢复数据优势
真实多任务 (OOD)Cup0.50 (DP-UMI)0.65分布外泛化
真实多任务 (OOD)Mouse0.40 (DP-UMI)0.80未见物体/夹爪
Real-World Out-of-Distribution Evaluation
图3:真实场景分布外泛化评估。 测试场景与训练数据存在显著分布偏移,包括未见过的环境、物体和机械夹爪。UVA 在 Cup(0.65 vs. 0.50)和 Mouse(0.80 vs. 0.40)任务上均明显超越 DP-UMI 基线,体现了联合视频-动作表征带来的更强泛化能力。

视觉鲁棒性与历史长度鲁棒性

Visual Robustness on PushT
图4:PushT 视觉干扰下的鲁棒性对比。 测试条件包括背景颜色变化、分散注意力的背景物体、以及目标颜色变化。在目标颜色改变时,UVA 达到 64% 成功率,显著优于 UniPi(40%)和 OpenVLA(32%)。视频生成的辅助监督帮助模型学到对视觉干扰更鲁棒的表征。

在 PushT-M 的历史长度消融实验(history length 从 1 增加到 5)中,DP-C 随历史增加性能明显下降,而 UVA "maintained robust performance as history length increased",展现出更稳定的时序建模能力。

视频生成质量 (FVD)

场景UniPi FVD ↓UVA FVD (1-step) ↓UVA FVD (8-step) ↓
Libero10(仿真)56.5551.10
Cup Arrangement(真实)71.3751.3429.72
Video Generation Results
图5:验证集视频生成质量对比(8 步自回归生成)。 UVA 生成的视频帧与 ground truth 高度吻合,时序一致性强。UniPi 偶尔生成模糊帧或物体缺失的帧。UVA 使用 8 步扩散在 Cup Arrangement 上达到 FVD 29.72(vs. UniPi 71.37)。

正向动力学模型 (Forward Dynamics)

在积木推拨任务(Block Pushing)中,UVA 的正向动力学模型为 DP-C 的 100 条采样动作轨迹打分选优。成功率从 DP-C 独立运行的 38% 提升至 60%(ground-truth 仿真器上限为 75%),四种颜色配置下平均提升 +22 个百分点。

逆向动力学模型 (Inverse Dynamics)

方法位置误差 (cm) ↓旋转误差 (°) ↓
UniPi 逆向动力学1.922.21
Visual-Inertial SLAM0.410.30
UVA(本文)0.751.11

作者认为 UVA 的逆向动力学性能代表了 "a viable alternative to SLAM, which is difficult to calibrate and suffers from a high failure rate."

消融实验

移除视频生成分支(UVA-action only)后,策略成功率在多任务设置下明显下降,验证了联合视频-动作监督对策略鲁棒性的贡献。对 masking 策略的消融(application-dependent vs. application-independent,不同 mask ratio)也在附录 Table VIII 中详细报告。在 Libero10 上加入少量人类示教视频(action-free),成功率从 0.90 进一步提升至 0.91(500-test 设置),证明框架具备利用无动作视频数据的潜力。

推理速度

仿真任务单条轨迹推理耗时 0.23s(对比 DP-C Transformer 变体 0.36s);真实世界实验推理延迟 95ms。"The use of decoupled diffusion heads eliminates the need for video generation during policy inference."

04 局限性

说明: 以下局限性中,第一条为论文 Discussion 章节明确陈述(stated),其余为从方法设计中合理推断(inferred from design)。
无动作视频数据的利用尚不充分(stated)

论文明确指出,当前框架 "does not currently leverage large amounts of actionless video data, which could provide valuable additional supervision." 作者建议通过在大规模网络视频数据集上进行预训练,可以显著增强模型的泛化能力。附录实验表明加入少量人类视频数据可小幅提升性能,但系统性探索留待未来工作。

真实单任务性能略逊于专项基线(stated)

在真实环境 UMI Cup 单任务测试中,UVA 成功率 0.85 低于 DP-UMI 的 0.95。作者将此归因于 DP-UMI 使用了专为短历史窗口优化的恢复数据,而 UVA 使用多任务通用设置。此局限在多任务 OOD 场景中不再出现。

模态扩展有限(inferred from design)

当前 UVA 仅支持视觉观测与末端执行器动作两种模态。论文提到未来计划通过增加新的扩散头来扩展预测模态,"such as sound and force",但当前版本尚不支持触觉、声音等多感官输入,限制了其在精密接触操作场景的应用。

视频生成与动作精度之间的权衡(inferred from design)

尽管解耦设计避免了推理时的视频生成开销,但训练时视频解码器与动作解码器共享 latent Z,两者优化目标存在潜在竞争。在部分高精度操作任务(如 Toolhang)上,UVA 成功率(0.88)略低于专项动作策略 DP-C(0.95),表明联合优化可能在极高精度场景下存在一定代价。