机器人操作 · 策略学习 · arXiv 2026

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

将大型视频生成模型微调为机器人控制策略
Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu

本文提出 Cosmos Policy,一种将大型预训练视频生成模型(Cosmos-Predict2-2B)通过单阶段 fine-tuning 转化为机器人控制策略的方法。 通过将机器人动作编码为 diffusion 过程中的 latent frames,无需修改基础模型架构即可学习复杂的动作分布;同时支持 model-based planning, 在 LIBERO 仿真(98.5%)、RoboCasa(67.1%,仅需 50 条演示)及真实 ALOHA 双臂机器人(93.6%)任务上取得最先进性能。

arXiv · 2026-01-27 cs.RO · cs.AI Base model: Cosmos-Predict2-2B 📄 arXiv:2601.16163
video generation model visuomotor control robot policy diffusion model model-based planning bimanual manipulation imitation learning fine-tuning 机器人操作 策略学习

01 动机(Motivation)

大型预训练视频生成模型捕获了丰富的时序动态与隐式物理先验,理论上是理想的机器人策略骨干网络—— 然而如何将其高效转化为可执行的控制策略,此前仍缺乏简洁的单阶段解决方案。

"large pretrained video generation models have shown impressive ability to generate physically plausible and temporally coherent videos"—— 这一能力与机器人任务高度契合,但既有方法往往需要多阶段训练或大量架构改动。
Cosmos Policy 总览
图 1 · 系统总览:Cosmos Policy 将 Cosmos-Predict2-2B 视频生成模型直接 fine-tune 为双臂机器人(ALOHA)的控制策略。 左侧展示模型通过预测未来帧同时输出动作 chunk;右侧为真实机器人上四项复杂任务的执行效果。 Cosmos Policy 在 ALOHA 平均得分 93.6,显著超过 π₀.₅(88.6)与 π₀(77.9)。
98.5%LIBERO 平均成功率(4 个任务套件)
67.1%RoboCasa 成功率(仅 50 条演示)
93.6ALOHA 真实机器人平均得分
+12.5planning 在最难任务上的提升(分)

02 方法(Method)

Cosmos Policy 的核心思路是将机器人动作、本体感知与价值估计编码为视频模型 diffusion 过程中的 latent frames, 从而在不修改任何模型权重结构的前提下,通过单阶段 fine-tuning 同时学习策略、世界模型和价值函数。

Latent 序列构成与 joint training
图 2 · Latent 帧序列与联合训练方案:输入 latent 序列为 (1 + T′) × H′ × W′ × 16,其中新模态(动作 chunk、未来本体感知、未来图像、状态价值 V(s′)) 替换占位帧。非图像模态被"normalized and duplicated copies"填充到 latent 体积中。 右图展示三种训练目标的 batch 组成:50% 演示数据(策略)、25% rollout(世界模型)、25% rollout(价值函数)。

Latent Frame Injection(模态注入)

区别于添加新模块的传统做法,Cosmos Policy 将所有额外模态——机器人动作、本体感知、价值估计—— 编码为 latent 空间中的"帧",直接嵌入原始 diffusion 序列。 以多相机 ALOHA 为例,latent 序列依次包含:空白占位帧、机器人本体感知、腕部相机、第三视角相机、 动作 chunk、未来本体感知、未来图像与未来状态价值。 输出可并行生成(更快,适合直接策略执行)或自回归生成(质量更高,适合 planning)。

Joint Training Scheme(联合训练)

为避免策略过度依赖单一监督信号,训练 batch 按比例混合三类目标:

辅助监督(未来状态预测 + 价值估计)显著提升了策略质量。消融实验显示,去掉辅助 loss 后 LIBERO 平均成功率从 98.5% 降至 97.0%(-1.5%)。

Model-Based Planning(基于模型的规划)

推理阶段,Cosmos Policy 实现 best-of-N 采样:并行采样多个动作候选,由 planning 模型预测每个动作 导致的未来状态与价值,选择价值最高的动作执行。聚合策略采用 "majority mean"—— 先根据阈值判断多数预测是成功还是失败,再对多数群体内的预测取均值,以提高鲁棒性。 实验表明,model-based V(s′) planning 优于 model-free Q(s, a) planning, 归因于在有限 rollout 数据下更高效的学习。

03 实验(Experiments)

在三个基准上评估:LIBERO 仿真(4 个任务套件)、RoboCasa 仿真(24 个厨房任务)以及真实 ALOHA 双臂机器人(4 个复杂操作任务)。 与 CogVLA、OpenVLA-OFT、π₀.₅、π₀、Video Policy、FLARE、GR00T-N1.5 等最先进方法对比。

LIBERO 仿真基准

方法SpatialObjectGoalLong平均
OpenVLA-OFT97.1%
CogVLA97.4%
π₀.₅96.9%
Cosmos Policy98.1%100.0%98.2%97.6%98.5%

RoboCasa 仿真基准(24 项厨房任务)

方法演示数量平均成功率
Video Policy300 条66.0%
FLARE300 条66.4%
GR00T-N1.5300 条64.1%
Cosmos Policy50 条67.1%

Cosmos Policy 仅使用 50 条演示(为对比方法的 1/6),便超越了使用 300 条演示的所有基线,显示出强大的 data efficiency。

ALOHA 真实双臂机器人

ALOHA 任务得分对比
图 3 · ALOHA 真实机器人任务得分:四项双臂操作任务(放盘子、折叠衬衫、放糖果入碗、放糖果入袋)。 Cosmos Policy 平均得分 93.6,明显优于 π₀.₅(88.6)、π₀(77.9)和 OpenVLA-OFT+(62.0)。
任务OpenVLA-OFT+π₀π₀.₅Cosmos Policy
Put X on plate100.0
Fold shirt99.5
Put candies in bowl89.6
Put candy in ziploc bag85.4
平均62.077.988.693.6

Model-Based Planning 效果

Planning 提升效果
图 4 · Planning 对最难任务的提升:在"Put candies in bowl"上 planning 带来 +12.5 分提升; "Put candy in ziploc bag"同样获得显著增益。Model-based V(s′) planning 优于 model-free Q(s, a) planning。

Ablation 分析

ALOHA rollout 可视化
图 5 · ALOHA 真实机器人执行轨迹可视化:Cosmos Policy 在四项双臂操作任务(放盘子、折叠衬衫、放糖果入碗、放糖果入袋)上的逐步执行帧。 策略生成流畅、精准的双臂协调动作,折叠衬衫任务尤为突出(得分 99.5)。

04 局限性(Limitations)

注:以下三点均为论文作者明确陈述(stated)的局限性。
推理速度较慢(Inference speed)

Model-based planning 模式下,每次产生一个 action chunk 约需 5 秒, 限制了该方案在动态、时间敏感任务上的适用性。对于需要快速反应的场景,当前 planning 延迟是主要瓶颈。

依赖大量 rollout 数据(Rollout data requirements)

有效的 planning 需要超出演示分布的大量 rollout 数据,以实现对分布外状态的准确预测。 当 rollout 数据不足时,世界模型的泛化能力受限,planning 的收益也随之下降。

规划深度受限(Planning depth)

当前方案采用"best-of-N planning with one layer in the search tree"的单步规划策略, 无法进行多步前瞻。作者指出,扩展预测 horizon 以及多层规划树有望进一步提升性能,但尚未实现。