世界模型 · 机器人学习 · ICLR 2025

Co-Evolving Latent Action World Models

CoLA-World:将 latent action 模型与 world model 协同联合训练
Yucen Wang, Fengming Zhang, De-Chuan Zhan(南京大学)· Li Zhao, Kaixin Wang, Jiang Bian(Microsoft Research Asia)

CoLA-World 首次打破"先训 LAM、再训 world model"的两阶段范式,将二者联合端到端训练——通过一个关键的 warm-up 阶段防止 codebook collapse,最终实现两者相互促进的协同进化,在视频预测质量和视觉规划成功率上全面超越两阶段基线。

arXiv 2025-10 视频生成 · 机器人学习 OpenSora / Wan2.1 backbone 📄 arXiv:2510.26433
latent action model world model 联合训练 codebook collapse video generation visual planning VP2 benchmark 机器人操作

01 动机

机器人和视频生成领域普遍采用"latent action model(LAM)+ world model(WM)"的两阶段流水线:先用 inverse dynamics model(IDM)从无标注视频中学习 latent action codebook,再将 codebook 固定,训练以 latent action 为条件的 world model。这种分离训练方式存在根本性冗余——IDM 内部的 forward dynamics model(FDM)与 WM 本质上做的是同一件事(预测下一帧),却各自为政、无法相互促进。

"We argue that there is an inherent redundancy in the design: the FDM and the world model perform almost identical functions, both modeling the transition dynamics of the environment."
两阶段 vs 联合训练示意图
Figure 1. (a) 先前方法:两阶段流水线,先固定训练 LAM,再用其 latent actions 训练 world model。(b) CoLA-World:直接用 world model 替代 IDM 中的 FDM,实现一阶段联合训练——world model 充当"知识丰富的导师",持续为 LAM 提供梯度,而不断演进的 LAM 又反过来提升 world model 的控制精度。
2.73×视觉规划平均成功率提升(joint vs two-stage,VP2 benchmark)
158.36FVD(joint)vs 167.06(two-stage),LIBERO OOD 视频预测
35.33%Upright Block 任务成功率(joint),vs two-stage 22.00%
38K步联合训练(计算量更少)即可达到或超越 60K 步两阶段基线

02 方法

CoLA-World 将 IDM 中原有的 FDM 替换为预训练 video generation world model,然后对整个系统端到端联合训练。核心挑战是直接联合训练会导致 latent action codebook 的"表征崩塌"(representational collapse),通过引入 warm-up 阶段可以优雅地解决这一问题。

关键挑战:Codebook Collapse

codebook collapse 分析
Figure 2. 直接从头联合训练时的 codebook 指标:utilization 降至 0,单个 code 使用率接近 100%,entropy 归零——即所有 latent action 退化为同一个 code,丧失表达能力。使用预训练权重初始化("pre"曲线)虽可短暂延缓,但最终仍不可避免地崩塌。

解决方案:Warm-Up + 端到端联合训练

CoLA-World 的训练分两阶段:

warm-up 阶段分析
Figure 3. Warm-up 阶段不同步数对应的 codebook 指标变化。warm-up 步数越充分,后续联合训练时 codebook 越稳定,utilization 保持在健康水平(>20%),entropy 不降为零。

Co-Evolution 证据

协同进化证据
Figure 4. (a) 在联合训练中,LAM 的 linear probing loss(衡量 latent action 质量)下降更快——对比 world model 固定时的情形,说明 world model 的持续进化正在帮助 LAM 学到更有意义的表示。(b) World model 在联合训练下视频预测性能持续提升,而固定 LAM 时出现明显瓶颈。

Real Action 适配:跨域迁移

学习到的 latent action codebook 可通过轻量级 adapter 与真实机器人动作对齐,实现从无标注视频到有标注机器人数据的迁移。实验表明,CoLA-World 的 codebook 在适配过程中保持健康的 utilization(>20%),而两阶段基线的 codebook 在适配阶段发生崩塌(utilization 跌至 ~10%,单个 code 占用率激增至 0.5)。

03 实验

评估涵盖四个机器人/视频数据集(OXE、EgoCentric、AgiBot、LIBERO),以及 VP2 benchmark 上的视觉规划任务(RoboDesk)。主要指标:视频预测用 FVD(越低越好),视觉规划用成功率(越高越好)。对比基线为相同计算预算(60K steps)的两阶段方法。

Table 1:视频预测性能(FVD,越低越好)

数据集两阶段(LAM30K+WM30K)CoLA-World(Warm8K+E2E52K)
OXE281.05278.90
EgoCentric259.33252.45
AgiBot180.45174.93
LIBERO(OOD)167.06158.36

在所有数据集上,相同计算预算下联合训练均优于两阶段方法,OOD 场景(LIBERO)提升尤为显著。

Table 2:Real Action 适配后的视频预测性能(FVD,越低越好)

数据集两阶段CoLA-World
LIBERO(real actions)115.4593.68
RoboDesk(real actions)188.82169.70

Table 3:VP2 Benchmark 视觉规划成功率(%,越高越好,RoboDesk)

任务两阶段CoLA-World
Upright Block22.0035.33
5-task 平均7.7321.20

视觉规划任务上,CoLA-World 的平均成功率为两阶段方法的 2.73×,验证联合训练带来的 codebook 质量优势可直接转化为下游控制性能提升。

数据效率与 Codebook 健康性

codebook 指标在适配阶段的对比
Figure 5. Real action 适配过程中的 codebook 指标对比。两阶段方法(橙色)的 codebook utilization 跌至 ~10%,最大 code 使用率激增,entropy 崩塌;CoLA-World(蓝色)在整个适配过程中保持 utilization >20% 的健康状态,说明联合训练带来的表示质量优势具备对分布偏移的鲁棒性。

Ablation:数据效率

计算量更少的配置(Warm8K + E2E30K,共 38K 步)已接近甚至超越 60K 步两阶段基线,表明联合训练收敛更快。此外,更大的 world model backbone(更多 DiT blocks)可持续提升 LAM 的 linear probing loss,验证 world model 能力与 LAM 质量之间的正向关联;增大 batch size(64→128)同样改善两者性能。

action transfer 定性结果
Figure 7. Action transfer 定性结果:source 和 target 视频来自不同数据集。CoLA-World 学到的 latent actions 能够跨数据集迁移并合理重现目标场景中的动作语义。

04 局限性

说明:论文未设置单独的 Limitations 章节。以下条目中,标注"(论文明确指出)"者来自原文,其余为根据方法设计推断(inferred)。
依赖大规模预训练 video generation model(论文明确指出)

CoLA-World 需要以预训练的 video generation world model 为起点,方能在 warm-up 阶段为 LAM 提供有意义的梯度。若预训练模型质量不足或领域差异过大,效果将受限。

计算成本显著高于两阶段方法(论文明确指出)

联合训练(Warm8K + E2E52K)约需 ~100 小时,而两阶段(LAM30K + WM30K)约需 ~75 小时(Table 8)。尽管收敛更快、性能更优,但绝对计算成本仍然较高,对资源受限的场景形成门槛。

视觉规划绝对成功率仍然偏低(inferred)

VP2 benchmark 上,CoLA-World 的 5-task 平均成功率为 21.20%,虽远优于两阶段的 7.73%,但绝对数值仍然偏低,距离实际机器人部署所需的可靠性尚有差距。

Warm-up 步数的超参敏感性(inferred)

实验显示 warm-up 步数对 codebook 稳定性有显著影响,需要一定调参成本;在新的数据集或 backbone 上应用时,最优 warm-up 时长可能需要重新搜索。