Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

01 动机（Motivation）

大型预训练视频生成模型捕获了丰富的时序动态与隐式物理先验，理论上是理想的机器人策略骨干网络—— 然而如何将其高效转化为可执行的控制策略，此前仍缺乏简洁的单阶段解决方案。

"large pretrained video generation models have shown impressive ability to generate physically plausible and temporally coherent videos"—— 这一能力与机器人任务高度契合，但既有方法往往需要多阶段训练或大量架构改动。

Cosmos Policy 总览 — **图 1 · 系统总览：**Cosmos Policy 将 Cosmos-Predict2-2B 视频生成模型直接 fine-tune 为双臂机器人（ALOHA）的控制策略。左侧展示模型通过预测未来帧同时输出动作 chunk；右侧为真实机器人上四项复杂任务的执行效果。 Cosmos Policy 在 ALOHA 平均得分 93.6，显著超过 π₀.₅（88.6）与 π₀（77.9）。

98.5%LIBERO 平均成功率（4 个任务套件）

67.1%RoboCasa 成功率（仅 50 条演示）

93.6ALOHA 真实机器人平均得分

+12.5planning 在最难任务上的提升（分）

02 方法（Method）

Cosmos Policy 的核心思路是将机器人动作、本体感知与价值估计编码为视频模型 diffusion 过程中的 latent frames，从而在不修改任何模型权重结构的前提下，通过单阶段 fine-tuning 同时学习策略、世界模型和价值函数。

Latent 序列构成与 joint training — **图 2 · Latent 帧序列与联合训练方案：**输入 latent 序列为 (1 + T′) × H′ × W′ × 16，其中新模态（动作 chunk、未来本体感知、未来图像、状态价值 V(s′)）替换占位帧。非图像模态被"normalized and duplicated copies"填充到 latent 体积中。右图展示三种训练目标的 batch 组成：50% 演示数据（策略）、25% rollout（世界模型）、25% rollout（价值函数）。

Latent Frame Injection（模态注入）

区别于添加新模块的传统做法，Cosmos Policy 将所有额外模态——机器人动作、本体感知、价值估计—— 编码为 latent 空间中的"帧"，直接嵌入原始 diffusion 序列。以多相机 ALOHA 为例，latent 序列依次包含：空白占位帧、机器人本体感知、腕部相机、第三视角相机、动作 chunk、未来本体感知、未来图像与未来状态价值。 输出可并行生成（更快，适合直接策略执行）或自回归生成（质量更高，适合 planning）。

Joint Training Scheme（联合训练）

为避免策略过度依赖单一监督信号，训练 batch 按比例混合三类目标：

50% 演示数据：训练策略 p(a, s′, V(s′) | s)
25% rollout 数据：训练世界模型 p(s′, V(s′) | s, a)
25% rollout 数据：训练价值函数 p(V(s′) | s, a, s′)

辅助监督（未来状态预测 + 价值估计）显著提升了策略质量。消融实验显示，去掉辅助 loss 后 LIBERO 平均成功率从 98.5% 降至 97.0%（-1.5%）。

Model-Based Planning（基于模型的规划）

推理阶段，Cosmos Policy 实现 best-of-N 采样：并行采样多个动作候选，由 planning 模型预测每个动作导致的未来状态与价值，选择价值最高的动作执行。聚合策略采用 "majority mean"—— 先根据阈值判断多数预测是成功还是失败，再对多数群体内的预测取均值，以提高鲁棒性。实验表明，model-based V(s′) planning 优于 model-free Q(s, a) planning，归因于在有限 rollout 数据下更高效的学习。

03 实验（Experiments）

在三个基准上评估：LIBERO 仿真（4 个任务套件）、RoboCasa 仿真（24 个厨房任务）以及真实 ALOHA 双臂机器人（4 个复杂操作任务）。与 CogVLA、OpenVLA-OFT、π₀.₅、π₀、Video Policy、FLARE、GR00T-N1.5 等最先进方法对比。

LIBERO 仿真基准

方法	Spatial	Object	Goal	Long	平均
OpenVLA-OFT	—	—	—	—	97.1%
CogVLA	—	—	—	—	97.4%
π₀.₅	—	—	—	—	96.9%
Cosmos Policy	98.1%	100.0%	98.2%	97.6%	98.5%

RoboCasa 仿真基准（24 项厨房任务）

方法	演示数量	平均成功率
Video Policy	300 条	66.0%
FLARE	300 条	66.4%
GR00T-N1.5	300 条	64.1%
Cosmos Policy	50 条	67.1%

Cosmos Policy 仅使用 50 条演示（为对比方法的 1/6），便超越了使用 300 条演示的所有基线，显示出强大的 data efficiency。

ALOHA 真实双臂机器人

ALOHA 任务得分对比 — **图 3 · ALOHA 真实机器人任务得分：**四项双臂操作任务（放盘子、折叠衬衫、放糖果入碗、放糖果入袋）。 Cosmos Policy 平均得分 93.6，明显优于 π₀.₅（88.6）、π₀（77.9）和 OpenVLA-OFT+（62.0）。

任务	OpenVLA-OFT+	π₀	π₀.₅	Cosmos Policy
Put X on plate	—	—	—	100.0
Fold shirt	—	—	—	99.5
Put candies in bowl	—	—	—	89.6
Put candy in ziploc bag	—	—	—	85.4
平均	62.0	77.9	88.6	93.6

Model-Based Planning 效果

Planning 提升效果 — **图 4 · Planning 对最难任务的提升：**在"Put candies in bowl"上 planning 带来 +12.5 分提升； "Put candy in ziploc bag"同样获得显著增益。Model-based V(s′) planning 优于 model-free Q(s, a) planning。

Ablation 分析

辅助 loss 的作用：去掉未来状态与价值辅助监督 → LIBERO 平均成功率从 98.5% 降至 97.0%（-1.5%）。
预训练权重的作用：从头训练 → LIBERO 成功率降至 94.6%（-3.9%）；ALOHA 折叠衬衫任务从 99.2 降至 80.8，并出现"jerky motions"（急促不稳定动作）。

ALOHA rollout 可视化 — **图 5 · ALOHA 真实机器人执行轨迹可视化：**Cosmos Policy 在四项双臂操作任务（放盘子、折叠衬衫、放糖果入碗、放糖果入袋）上的逐步执行帧。策略生成流畅、精准的双臂协调动作，折叠衬衫任务尤为突出（得分 99.5）。

04 局限性（Limitations）

注：以下三点均为论文作者明确陈述（stated）的局限性。

推理速度较慢（Inference speed）

Model-based planning 模式下，每次产生一个 action chunk 约需 5 秒，限制了该方案在动态、时间敏感任务上的适用性。对于需要快速反应的场景，当前 planning 延迟是主要瓶颈。

依赖大量 rollout 数据（Rollout data requirements）

有效的 planning 需要超出演示分布的大量 rollout 数据，以实现对分布外状态的准确预测。当 rollout 数据不足时，世界模型的泛化能力受限，planning 的收益也随之下降。

规划深度受限（Planning depth）

当前方案采用"best-of-N planning with one layer in the search tree"的单步规划策略，无法进行多步前瞻。作者指出，扩展预测 horizon 以及多层规划树有望进一步提升性能，但尚未实现。