ICML 2025 · 世界模型

AdaWorld: Learning Adaptable World Models with Latent Actions

无需大量动作标注,通过自监督 latent action 实现跨环境世界模型高效适应
Shenyuan Gao · Siyuan Zhou · Yilun Du · Jun Zhang · Chuang Gan  |  ICML 2025

现有世界模型严重依赖带有动作标注的大量数据,面对新环境时适应成本极高。AdaWorld 提出以自监督方式从无标注视频中提取 latent action,并以此为条件预训练一个自回归世界模型,使模型能够在极少交互数据下快速迁移至新环境,同时支持无需额外训练的跨场景 action transfer 与语义连续的 action composition。

ICML 2025 Video Prediction · Planning Diffusion-based World Model 📄 arXiv:2503.18938 PDF
world model latent action self-supervised learning video prediction visual planning 自适应世界模型 diffusion model 迁移学习

01 动机

世界模型(world model)旨在学习由动作控制的未来帧预测,是构建智能 agent 的核心组件。然而,绝大多数现有方法严重依赖大量动作标注数据和高昂的训练成本,难以通过有限交互适应异构动作空间的新环境,极大限制了其跨域可用性。

"most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions."
AdaWorld teaser — 不同世界模型学习范式对比
Figure 1:不同世界模型学习范式对比。传统方法需要昂贵的动作标注才能获得可控性;AdaWorld 引入 latent action 作为统一条件进行动作感知预训练,无需训练即可跨场景迁移动作,也可以高效 fine-tune 为专用世界模型,并取得显著优于 action-agnostic baseline 的规划结果。
70.5%LIBERO 动作迁移人类评估成功率(vs. baseline 0%)
23.58Habitat 环境 PSNR(仅 800 步 fine-tune)
56.67%Procgen 游戏平均规划成功率(fine-tune 后)
21.54机器人任务聚合归一化成功率(vs. baseline 5.03)

02 方法

AdaWorld 的核心思路是:在预训练阶段就将动作信息注入世界模型——通过 latent action autoencoder 从无标注视频中自监督提取 latent action,再以这些 latent action 为条件预训练一个基于扩散的自回归世界模型。推理时可无训练迁移、少样本 fine-tune 或 MLP 映射等多种方式适应新环境。

Latent Action Autoencoder

Latent action autoencoder 架构图
Figure 2:Latent action autoencoder。编码器基于时空 Transformer,以信息瓶颈(information bottleneck)设计从连续帧中提取最关键的帧间变化,压缩为连续 latent action;解码器则依据 latent action 和当前帧重建下一帧。该压缩机制迫使 latent action 只保留"相对前帧最关键的变化",从而形成与场景上下文无关的表示。训练目标采用 β-VAE 形式:𝓛 = 𝓛_pred + β·KL,在表达力与解耦之间取得平衡。

Action-Aware Pretraining(动作感知预训练)

Action-aware pretraining 流程图
Figure 3:动作感知预训练流程。以 Stable Video Diffusion 为基础,用 latent action encoder 从无标注视频中提取 latent action,再以其为条件驱动自回归视频预测模型的预训练。推理时支持多步自回归展开(autoregressive rollout)。

跨环境适应机制

Action Transfer(零样本迁移)

直接将源视频中提取的 latent action 用于控制目标场景的世界模型,无需任何训练。由于 latent action 与上下文解耦,同一动作可无缝迁移到不同视觉场景。

Efficient Fine-tuning(高效 fine-tune)

对于离散动作空间:以每个动作对应的多条轨迹的 latent action 平均值初始化控制接口,再少量 fine-tune;对于连续动作空间:用 MLP 将真实动作映射为 latent action 空间后 fine-tune,均仅需极少标注样本与步数。

Action Composition(动作组合)

动作迁移与组合示意图
Figure 4:动作迁移与组合。左:AdaWorld 可准确识别演示动作并将其迁移到不同场景,而 baseline 方法失败。右:通过在 latent space 中对两个 latent action 做平均,可组合出语义上融合二者功能的新动作,表明 latent action 空间在动作语义上是连续的("our latent action space is semantically continuous in the meanings of actions")。

03 实验

实验跨多个领域展开:Action Transfer 评估(LIBERO、Something-Something v2),世界模型适应质量(Habitat、Minecraft、DMLab、nuScenes,每类环境 800 步 fine-tune),以及 visual planning(4 个 Procgen 游戏 + VP² 机器人任务)。Baseline 包括:action-agnostic 预训练、flow conditioning、discrete conditioning,以及 Q-learning、ground truth simulator。

Action Transfer(动作迁移)

方法LIBERO FVD ↓LIBERO Human ↑SSv2 FVD ↓SSv2 Human ↑
Act-agnostic1545.20%847.21%
Flow cond.1409.52%702.810.5%
Discrete cond.1504.53.5%726.821.5%
AdaWorld767.070.5%473.461.5%

AdaWorld 在 FVD 和人类评估成功率上均大幅领先所有 baseline,展现出极强的跨场景动作迁移能力。

世界模型适应质量(800 步 fine-tune)

方法Habitat PSNR ↑Habitat LPIPS ↓Minecraft PSNR ↑nuScenes PSNR ↑
Act-agnostic20.340.45019.4420.86
Flow cond.22.490.37320.7120.94
Discrete cond.23.310.34221.3321.28
AdaWorld23.580.32721.5921.60

适应速度(PSNR 曲线)

PSNR adaptation curves
Figure 6:世界模型适应 PSNR 曲线。在样本数和训练步数均极少的情况下,AdaWorld 比传统预训练方法更快收敛至更高 PSNR,体现出"highly adaptable"的设计目标。

Visual Planning(视觉规划)

方法HeistJumperMazeCaveFlyer平均
Random19.33%22.00%41.33%22.00%26.17%
Act-agnostic20.67%20.67%39.33%23.33%26.00%
AdaWorld w/o FT38.67%68.00%41.33%31.33%44.83%
AdaWorld w/ FT66.67%58.67%68.00%33.33%56.67%

即使不经 fine-tune,AdaWorld 平均成功率(44.83%)也已显著超过 Q-learning(27.17%)和 action-agnostic 方法(26.00%)。机器人任务聚合归一化成功率:AdaWorld 21.54,action-agnostic baseline 仅 5.03

消融(Ablations)

数据多样性消融(Table 5)表明,增加训练数据多样性能显著提升 latent action 对新领域的泛化能力。架构泛化性消融(Table 6)表明,将动作感知预训练应用于 iVideoGPT 同样大幅提升其适应性,验证了该方法的通用性。UMAP 可视化(Figure 7)显示,较小的 β 值增强表达力但牺牲了与上下文的解耦程度。

04 局限性

Note:以下局限性均为作者在论文中明确陈述(stated by the authors)。
推理速度不支持实时

"it does not operate at real-time frequency." 未来可通过蒸馏(distillation)与加速采样技术改善推理速度。

长序列展开时难以生成新内容

"AdaWorld struggles to create novel content when the rollout exceeds the initial scene." 作者认为该问题可通过扩大模型规模与训练数据解决。

超长期展开(extremely long-term rollouts)能力不足

"our model falls short in achieving extremely long-term rollouts, and we will explore potential solutions in future work."

存在若干典型失败案例

作者在附录中列举了部分主要失败案例("We also append some primary failure cases"),但论文主体未作详细讨论。