Unified Video Action Model

01 动机

机器人学习领域长期面临一个根本矛盾：动作预测需要高时间频率的密集、精细推理，而视频生成需要高空间分辨率和大量计算资源。现有方法要么完全跳过视频生成（action-only policies），丢失了视觉场景动态的监督信号；要么先生成视频再预测动作（如 UniPi），导致推理速度慢且错误传播严重。

"We propose a joint video-action latent representation and decouple video-action decoding to achieve both accuracy and computational efficiency."

UVA Teaser — **图1：Unified Video Action Model (UVA) 概览。** (a) UVA 采用联合视频-动作潜在表征与解耦解码架构：训练时视频和动作的 loss 同时监督共享 latent；部署时动作头独立运行，无需生成视频帧，实现高速推理。 (b) 通过 masked training，单一模型支持五种灵活的输入-输出组合，涵盖策略学习、视频生成、正/逆向动力学建模。

+20%PushT Multitask 成功率提升（vs. 最优基线）

+5%Libero10 成功率提升（vs. π₀）

95ms真实环境推理延迟（无需视频生成）

0.5B参数量（vs. π₀ 的 3.3B）

02 方法

UVA 由四个核心模块组成：历史编码器（Encode History）、masked autoencoder 观测预测器、解耦的视频与动作扩散解码头，以及支持多任务的 masked training 机制。训练时两种解码 loss 联合优化共享 latent；推理时只需运行轻量动作头，彻底消除视频生成的推理开销。

UVA Network Architecture — **图2：UVA 网络架构。** 历史观测帧经预训练 VAE（kl-f16）编码为 latent map，展平后投影为 N 维视觉 token；动作块对齐重复后同样投影为 N 个动作 token。未来帧经随机 masking 后送入 Transformer，得到联合视频-动作潜在表征 {Z}。随后两个独立扩散头分别重建视频帧和生成动作序列。语言条件任务（如 Libero10）通过 CLIP 编码后追加到 token 序列。

III-A 历史编码 (Encode History)

历史观测帧 {O_t−h+1, …, O_t} 通过预训练 VAE 编码器（kl-f16）编码为形如 ℝ^w×h×c 的 latent map，展平并经全连接层投影为 d 维向量，每帧表示为 N 个视觉 token。对于动作（采样频率高于观测），将动作块重复 M 次与视觉 token 对齐，经 FC 层投影为 N 个动作 token，作为 Transformer 的条件输入。

III-B Masked Autoencoder 观测预测

未来观测帧经与历史相同的方式编码，训练时对视觉 token 进行随机 masking，模型学习重建被遮盖的 token。Transformer 融合视频与动作信息，输出联合视频-动作潜在表征 Z。关键设计：跨所有视频帧在相同位置进行 masking，防止信息泄露。推理时模型从空序列出发自回归生成完整视频。对于语言条件任务，CLIP 编码的语言 token 追加到输入序列。

III-C 解耦视频与动作扩散 (Decoupled Diffusion)

与先生成视频再预测动作的层级式方案不同，UVA 使用两个独立的轻量级扩散解码器，均以共享 latent Z 为条件。训练时两路 loss 同步监督：

动作 loss： L_action(Z,A) = E_ε,k[‖ε − ε_θ(A^(k)|k,Z)‖²]
视频 loss： L_video(Z,O) = E_ε,k[(1/N)Σ‖ε_i − ε_φ(O^(i,k)|k,z_i)‖²]
总 loss： L = L_action + L_video

部署时只运行动作扩散头，无需执行视频生成，推理延迟与纯动作策略相当。

III-D Masked Training 多任务灵活目标

通过在输入端对未使用的模态进行 masking 并替换为可学习的 mask token，单一模型支持五种训练任务的灵活切换：

策略学习 (Policy Learning)

历史观测 + 历史动作 → 预测未来动作。核心机器人控制任务。

视频生成 (Video Prediction)

历史观测 + 历史动作 → 预测未来视频帧。视觉场景规划与想象。

正向动力学 (Forward Dynamics)

历史观测 + 历史动作 + 未来动作 → 预测未来视频。用于动作采样评分。

逆向动力学 (Inverse Dynamics)

历史观测 + 未来观测 → 预测连接动作。无需显式动作标注的场景。

03 实验

实验覆盖仿真与真实场景的单任务/多任务设置，评估 UVA 在策略学习、视频生成、正向/逆向动力学建模等方面的能力，并与 Diffusion Policy (DP-C, DP-UMI)、UniPi、π₀、OpenVLA 等基线进行对比。

策略学习结果 (Policy Learning)

场景	任务	最优基线	UVA	备注
仿真单任务	PushT	0.91 (DP-C)	0.98	+7.7%
仿真单任务	Toolhang	0.95 (DP-C)	0.88	略低于最优
仿真多任务	PushT-M	0.68 (DP-C)	0.88	+20%
仿真多任务	Libero10	0.85 (π₀)	0.90	+5.9%，参数量仅 1/6
真实单任务	UMI Cup	0.95 (DP-UMI)	0.85	DP-UMI 含恢复数据优势
真实多任务 (OOD)	Cup	0.50 (DP-UMI)	0.65	分布外泛化
真实多任务 (OOD)	Mouse	0.40 (DP-UMI)	0.80	未见物体/夹爪

Real-World Out-of-Distribution Evaluation — **图3：真实场景分布外泛化评估。** 测试场景与训练数据存在显著分布偏移，包括未见过的环境、物体和机械夹爪。UVA 在 Cup（0.65 vs. 0.50）和 Mouse（0.80 vs. 0.40）任务上均明显超越 DP-UMI 基线，体现了联合视频-动作表征带来的更强泛化能力。

视觉鲁棒性与历史长度鲁棒性

Visual Robustness on PushT — **图4：PushT 视觉干扰下的鲁棒性对比。** 测试条件包括背景颜色变化、分散注意力的背景物体、以及目标颜色变化。在目标颜色改变时，UVA 达到 64% 成功率，显著优于 UniPi（40%）和 OpenVLA（32%）。视频生成的辅助监督帮助模型学到对视觉干扰更鲁棒的表征。

在 PushT-M 的历史长度消融实验（history length 从 1 增加到 5）中，DP-C 随历史增加性能明显下降，而 UVA "maintained robust performance as history length increased"，展现出更稳定的时序建模能力。

视频生成质量 (FVD)

场景	UniPi FVD ↓	UVA FVD (1-step) ↓	UVA FVD (8-step) ↓
Libero10（仿真）	56.55	—	51.10
Cup Arrangement（真实）	71.37	51.34	29.72

Video Generation Results — **图5：验证集视频生成质量对比（8 步自回归生成）。** UVA 生成的视频帧与 ground truth 高度吻合，时序一致性强。UniPi 偶尔生成模糊帧或物体缺失的帧。UVA 使用 8 步扩散在 Cup Arrangement 上达到 FVD 29.72（vs. UniPi 71.37）。

正向动力学模型 (Forward Dynamics)

在积木推拨任务（Block Pushing）中，UVA 的正向动力学模型为 DP-C 的 100 条采样动作轨迹打分选优。成功率从 DP-C 独立运行的 38% 提升至 60%（ground-truth 仿真器上限为 75%），四种颜色配置下平均提升 +22 个百分点。

逆向动力学模型 (Inverse Dynamics)

方法	位置误差 (cm) ↓	旋转误差 (°) ↓
UniPi 逆向动力学	1.92	2.21
Visual-Inertial SLAM	0.41	0.30
UVA（本文）	0.75	1.11

作者认为 UVA 的逆向动力学性能代表了 "a viable alternative to SLAM, which is difficult to calibrate and suffers from a high failure rate."

消融实验

移除视频生成分支（UVA-action only）后，策略成功率在多任务设置下明显下降，验证了联合视频-动作监督对策略鲁棒性的贡献。对 masking 策略的消融（application-dependent vs. application-independent，不同 mask ratio）也在附录 Table VIII 中详细报告。在 Libero10 上加入少量人类示教视频（action-free），成功率从 0.90 进一步提升至 0.91（500-test 设置），证明框架具备利用无动作视频数据的潜力。

推理速度

仿真任务单条轨迹推理耗时 0.23s（对比 DP-C Transformer 变体 0.36s）；真实世界实验推理延迟 95ms。"The use of decoupled diffusion heads eliminates the need for video generation during policy inference."

04 局限性

说明： 以下局限性中，第一条为论文 Discussion 章节明确陈述（stated），其余为从方法设计中合理推断（inferred from design）。

无动作视频数据的利用尚不充分（stated）

论文明确指出，当前框架 "does not currently leverage large amounts of actionless video data, which could provide valuable additional supervision." 作者建议通过在大规模网络视频数据集上进行预训练，可以显著增强模型的泛化能力。附录实验表明加入少量人类视频数据可小幅提升性能，但系统性探索留待未来工作。

真实单任务性能略逊于专项基线（stated）

在真实环境 UMI Cup 单任务测试中，UVA 成功率 0.85 低于 DP-UMI 的 0.95。作者将此归因于 DP-UMI 使用了专为短历史窗口优化的恢复数据，而 UVA 使用多任务通用设置。此局限在多任务 OOD 场景中不再出现。

模态扩展有限（inferred from design）

当前 UVA 仅支持视觉观测与末端执行器动作两种模态。论文提到未来计划通过增加新的扩散头来扩展预测模态，"such as sound and force"，但当前版本尚不支持触觉、声音等多感官输入，限制了其在精密接触操作场景的应用。

视频生成与动作精度之间的权衡（inferred from design）

尽管解耦设计避免了推理时的视频生成开销，但训练时视频解码器与动作解码器共享 latent Z，两者优化目标存在潜在竞争。在部分高精度操作任务（如 Toolhang）上，UVA 成功率（0.88）略低于专项动作策略 DP-C（0.95），表明联合优化可能在极高精度场景下存在一定代价。