Co-Evolving Latent Action World Models (CoLA-World)

01 动机

机器人和视频生成领域普遍采用"latent action model（LAM）+ world model（WM）"的两阶段流水线：先用 inverse dynamics model（IDM）从无标注视频中学习 latent action codebook，再将 codebook 固定，训练以 latent action 为条件的 world model。这种分离训练方式存在根本性冗余——IDM 内部的 forward dynamics model（FDM）与 WM 本质上做的是同一件事（预测下一帧），却各自为政、无法相互促进。

"We argue that there is an inherent redundancy in the design: the FDM and the world model perform almost identical functions, both modeling the transition dynamics of the environment."

两阶段 vs 联合训练示意图 — **Figure 1.** (a) 先前方法：两阶段流水线，先固定训练 LAM，再用其 latent actions 训练 world model。(b) CoLA-World：直接用 world model 替代 IDM 中的 FDM，实现一阶段联合训练——world model 充当"知识丰富的导师"，持续为 LAM 提供梯度，而不断演进的 LAM 又反过来提升 world model 的控制精度。

2.73×视觉规划平均成功率提升（joint vs two-stage，VP2 benchmark）

158.36FVD（joint）vs 167.06（two-stage），LIBERO OOD 视频预测

35.33%Upright Block 任务成功率（joint），vs two-stage 22.00%

38K步联合训练（计算量更少）即可达到或超越 60K 步两阶段基线

02 方法

CoLA-World 将 IDM 中原有的 FDM 替换为预训练 video generation world model，然后对整个系统端到端联合训练。核心挑战是直接联合训练会导致 latent action codebook 的"表征崩塌"（representational collapse），通过引入 warm-up 阶段可以优雅地解决这一问题。

关键挑战：Codebook Collapse

codebook collapse 分析 — **Figure 2.** 直接从头联合训练时的 codebook 指标：utilization 降至 0，单个 code 使用率接近 100%，entropy 归零——即所有 latent action 退化为同一个 code，丧失表达能力。使用预训练权重初始化（"pre"曲线）虽可短暂延缓，但最终仍不可避免地崩塌。

解决方案：Warm-Up + 端到端联合训练

CoLA-World 的训练分两阶段：

Warm-Up 阶段：固定 world model 参数，仅让其提供梯度来更新 LAM（IDM）。此时 world model 充当"冻结的导师"，帮助 LAM 建立稳健的 codebook 表示，防止崩塌。
End-to-End 联合训练阶段：解冻 world model，两者共同更新。LAM 持续产生更高质量的 latent actions，world model 以此为条件提升视频预测精度，形成正向反馈循环——即"co-evolution"（协同进化）。

warm-up 阶段分析 — **Figure 3.** Warm-up 阶段不同步数对应的 codebook 指标变化。warm-up 步数越充分，后续联合训练时 codebook 越稳定，utilization 保持在健康水平（>20%），entropy 不降为零。

Co-Evolution 证据

协同进化证据 — **Figure 4.** (a) 在联合训练中，LAM 的 linear probing loss（衡量 latent action 质量）下降更快——对比 world model 固定时的情形，说明 world model 的持续进化正在帮助 LAM 学到更有意义的表示。(b) World model 在联合训练下视频预测性能持续提升，而固定 LAM 时出现明显瓶颈。

Real Action 适配：跨域迁移

学习到的 latent action codebook 可通过轻量级 adapter 与真实机器人动作对齐，实现从无标注视频到有标注机器人数据的迁移。实验表明，CoLA-World 的 codebook 在适配过程中保持健康的 utilization（>20%），而两阶段基线的 codebook 在适配阶段发生崩塌（utilization 跌至 ~10%，单个 code 占用率激增至 0.5）。

03 实验

评估涵盖四个机器人/视频数据集（OXE、EgoCentric、AgiBot、LIBERO），以及 VP2 benchmark 上的视觉规划任务（RoboDesk）。主要指标：视频预测用 FVD（越低越好），视觉规划用成功率（越高越好）。对比基线为相同计算预算（60K steps）的两阶段方法。

Table 1：视频预测性能（FVD，越低越好）

数据集	两阶段（LAM30K+WM30K）	CoLA-World（Warm8K+E2E52K）
OXE	281.05	278.90
EgoCentric	259.33	252.45
AgiBot	180.45	174.93
LIBERO（OOD）	167.06	158.36

在所有数据集上，相同计算预算下联合训练均优于两阶段方法，OOD 场景（LIBERO）提升尤为显著。

Table 2：Real Action 适配后的视频预测性能（FVD，越低越好）

数据集	两阶段	CoLA-World
LIBERO（real actions）	115.45	93.68
RoboDesk（real actions）	188.82	169.70

Table 3：VP2 Benchmark 视觉规划成功率（%，越高越好，RoboDesk）

任务	两阶段	CoLA-World
Upright Block	22.00	35.33
5-task 平均	7.73	21.20

视觉规划任务上，CoLA-World 的平均成功率为两阶段方法的 2.73×，验证联合训练带来的 codebook 质量优势可直接转化为下游控制性能提升。

数据效率与 Codebook 健康性

codebook 指标在适配阶段的对比 — **Figure 5.** Real action 适配过程中的 codebook 指标对比。两阶段方法（橙色）的 codebook utilization 跌至 ~10%，最大 code 使用率激增，entropy 崩塌；CoLA-World（蓝色）在整个适配过程中保持 utilization >20% 的健康状态，说明联合训练带来的表示质量优势具备对分布偏移的鲁棒性。

Ablation：数据效率

计算量更少的配置（Warm8K + E2E30K，共 38K 步）已接近甚至超越 60K 步两阶段基线，表明联合训练收敛更快。此外，更大的 world model backbone（更多 DiT blocks）可持续提升 LAM 的 linear probing loss，验证 world model 能力与 LAM 质量之间的正向关联；增大 batch size（64→128）同样改善两者性能。

action transfer 定性结果 — **Figure 7.** Action transfer 定性结果：source 和 target 视频来自不同数据集。CoLA-World 学到的 latent actions 能够跨数据集迁移并合理重现目标场景中的动作语义。

04 局限性

说明：论文未设置单独的 Limitations 章节。以下条目中，标注"（论文明确指出）"者来自原文，其余为根据方法设计推断（inferred）。

依赖大规模预训练 video generation model（论文明确指出）

CoLA-World 需要以预训练的 video generation world model 为起点，方能在 warm-up 阶段为 LAM 提供有意义的梯度。若预训练模型质量不足或领域差异过大，效果将受限。

计算成本显著高于两阶段方法（论文明确指出）

联合训练（Warm8K + E2E52K）约需 ~100 小时，而两阶段（LAM30K + WM30K）约需 ~75 小时（Table 8）。尽管收敛更快、性能更优，但绝对计算成本仍然较高，对资源受限的场景形成门槛。

视觉规划绝对成功率仍然偏低（inferred）

VP2 benchmark 上，CoLA-World 的 5-task 平均成功率为 21.20%，虽远优于两阶段的 7.73%，但绝对数值仍然偏低，距离实际机器人部署所需的可靠性尚有差距。

Warm-up 步数的超参敏感性（inferred）

实验显示 warm-up 步数对 codebook 稳定性有显著影响，需要一定调参成本；在新的数据集或 backbone 上应用时，最优 warm-up 时长可能需要重新搜索。