DiLA: Disentangled Latent Action World Models

01 动机 Motivation

Latent Action Models (LAMs) 是一类以无监督方式从视频中提取潜在动作表示的世界模型。然而，已有方法在动作抽象和生成保真度之间存在难以调和的权衡：通过 Vector Quantization 或 VAE 强化瓶颈可以提升动作抽象质量，却以牺牲视频帧的视觉细节为代价；而保留视觉细节又会导致结构化动作表示退化。

"The predictive bottleneck inherent in latent action learning serves as a driving force for disentanglement."

作者将这一现象称为 "LAM Trade-off"，并提出核心洞察：仅需预测帧间差异的结构变化即可完成视频预测，这天然驱动了内容与结构的解耦。通过显式地将两条路径分离——结构通道（dynamics）和内容通道（appearance）——DiLA 绕开了这一权衡。

teaser: co-evolution of latent actions and disentanglement — 图1：潜在动作与解耦效果随受限预测瓶颈的共同演化。随着训练推进，结构通道逐渐专注于运动信息，内容通道保留静态外观，两者实现清晰分离。

41.44%VP² 视觉规划聚合成功率（vs. AdaWorld 21.54%）

0.774RT-1 SSIM↑（视频生成质量最优）

0.206RT-1 LPIPS↓（感知质量最优）

0.009Push-T Linear Probing MSE↓（动作解码最优）

02 方法 Method

DiLA 由三个核心模块组成：结构通道（Structure Pathway）提取并预测帧间的空间布局变化；内容通道（Content Pathway）通过 Mamba-based memory 聚合静态视觉特征；Fusion Decoder 将两路信息融合重建目标帧。整个系统无需任何动作标注，以自监督 teacher-forcing 方式端到端训练。

DiLA architecture — 图2：DiLA 整体架构。输入视频帧经过编码后分流至结构通道（压缩为结构嵌入 s）和内容通道（Mamba 记忆模块聚合特征 c^mem）。IDM（Inverse Dynamics Model）从相邻结构嵌入的差异中提取潜在动作 z（d_z=256），FDM（Forward Dynamics Model）通过残差更新预测下一状态的结构嵌入；Fusion Decoder 最终将预测结构与内容记忆及初始帧融合重建目标帧。

结构通道 — 潜在动作提取

视频帧经过编码后被压缩为结构嵌入 s，只保留空间布局信息。Inverse Dynamics Model (IDM) 接受相邻两帧的结构嵌入，提取潜在动作 z（维度 d_z=256，连续表示）；Forward Dynamics Model (FDM) 则将当前结构嵌入与潜在动作结合，通过残差更新预测下一帧的结构嵌入。训练目标包含视觉潜在预测损失 ℒ_e（λ=2.0）、结构预测损失 ℒ_s（λ=0.03）、潜在动作一致性损失 ℒ_z（λ=0.03）以及含 inverse-temporal symmetry 的正则化损失 ℒ_reg（λ=0.001）。

内容通道 — Mamba 记忆聚合

内容通道的设计目的是隔离静态视觉外观，不引入运动信息。Mamba-based memory 模块在时间维度上聚合来自多帧的静态特征，输出内容记忆向量 c^mem。消融实验验证：冻结结构嵌入后，重建序列静止不动，确认内容通道中零运动泄漏（zero motion leakage）。

动作迁移 — DINOv2 结构化嵌入

跨场景/跨实体动作迁移通过 DINOv2 特征对齐实现：将源视频提取的结构变化（潜在动作序列）应用于目标初始帧，无需任何微调。这支持了 human→robot、跨视角、跨导航环境等多种 cross-embodiment 迁移场景。

Cross-embodiment action transfer — 图3：DiLA 的跨实体动作迁移实验。从人手操作视频中提取潜在动作，直接迁移到机器人手臂（human-to-robot）、不同物体/视角（semantic transfer），以及不同导航环境（navigation），证明所学动作空间具有跨域语义一致性。

03 实验 Experiments

实验在 Something-Something v2 (SSv2)、RT-1 机器人操作、OmniObject3D、RECON/LoopNav 导航等多个数据集上展开，与 LAPA、Moto、AdaWorld、villa-x 等强基线对比，评估视频生成质量（SSIM↑、LPIPS↓）、动作解码能力（Linear Probing MSE↓）以及视觉规划成功率。

视频生成质量（Table 1）

模型	SSv2 SSIM↑	SSv2 LPIPS↓	RT-1 SSIM↑	RT-1 LPIPS↓
LAPA	0.637±0.035	0.565±0.021	0.491±0.014	0.595±0.005
Moto	0.555±0.043	0.593±0.022	0.762±0.023	0.284±0.016
AdaWorld(FDM)	0.625±0.029	0.576±0.016	0.554±0.014	0.549±0.012
AdaWorld	0.674±0.008	0.521±0.022	0.634±0.013	0.429±0.009
villa-x	0.636±0.036	0.515±0.026	0.576±0.023	0.477±0.021
DiLA w/o content	0.594±0.050	0.450±0.031	0.647±0.022	0.258±0.015
DiLA	0.660±0.037	0.356±0.027	0.774±0.010	0.206±0.013

DiLA 在感知质量指标 LPIPS 上全面领先（两数据集均最优），RT-1 SSIM 也达到最优。SSv2 SSIM 略低于 AdaWorld（0.660 vs. 0.674），但 SSv2 LPIPS 显著优于所有基线（0.356 vs. 0.515+）。

内容-结构解耦验证

Content-structure disentanglement — 图4：解耦验证实验。重绑定实验（rebinding）将一个视频的结构嵌入与另一视频的内容记忆组合，可产生融合两者的输出，证明结构通道捕获运动而内容记忆保留静态外观。孤立运动实验（motion isolation）冻结结构嵌入后序列保持静止，确认内容通道零运动泄漏。

消融研究（Table 2 & Table 3）

模型变体	Rollouts↓	Cycle Transfer↓	MSE↓
DiLA w/o content	0.344±0.030	0.451±0.018	0.249±0.035
Discrete z	0.334±0.020	0.442±0.028	0.262±0.033
Gaussian z	0.346±0.019	0.434±0.018	0.265±0.024
DiLA	0.263±0.027	0.343±0.022	0.216±0.031

连续潜在动作表示显著优于离散（Vector Quantization）和高斯变分形式。内容通道对于改善动作迁移质量不可或缺（w/o content 在所有指标上均显著下降）。

OOD 机器人基准线性探测（Table 3）

方法	Franka Kitchen↓	Block Pushing↓	Push-T↓	LIBERO Goal↓
Discrete z	0.098±0.014	0.061±0.015	0.023±0.004	0.160±0.023
Gaussian z	0.125±0.020	0.102±0.023	0.041±0.006	0.190±0.022
DiLA	0.073±0.014	0.037±0.013	0.009±0.003	0.119±0.018

潜在动作流形分析

Latent action manifold UMAP analysis — 图5：OmniObject3D 数据集上的潜在动作空间 UMAP 可视化。平移动作形成拓扑与实际运动方向一致的二维流形；缩放动作关于恒等点呈对称分布；旋转动作形成连续色谱；组合动作聚类可解释；导航任务（RECON/LoopNav）分别显示连续偏航角谱或离散簇结构。

视觉规划（VP² Benchmark，Table 4）

任务	AdaWorld	DiLA
Robosuite push	63.50±1.71%	68.00±1.41%
Open slide	5.83±2.85%	15.00±5.00%
Blue button	29.17±2.50%	78.33±3.73%
Green button	10.83±2.50%	35.83±4.93%
Red button	10.00±2.36%	20.83±5.95%
Upright block	5.00±0.96%	3.33±2.72%
聚合成功率	21.54	41.44

在 Model Predictive Control 视觉规划基准 VP² 上，DiLA 聚合成功率 41.44% 远超 AdaWorld 的 21.54%，在 5/6 个子任务上占优。仅 Upright block 任务（精细控制）AdaWorld 略胜（5.00% vs. 3.33%），与作者分析的局限性一致。

04 局限性 Limitations

说明：以下局限性均为作者在论文中明确陈述（stated by the authors）。

精细控制不稳定（Fine-grained Control）

潜在动作的高级抽象特性牺牲了控制精度，导致在要求精细操作的任务（如 VP² 中的 Upright block）上表现不稳定。抽象层面越高，对底层执行器的精确控制越难保证。

多物体动态建模不足（Multi-object Dynamics）

当前框架将空间布局（结构）与外观（内容）分离，但不支持对多个物体的独立分解建模。场景中存在多个独立运动物体时，模型的解耦能力受限。

长视频自回归误差累积（Long-horizon Video）

以自回归方式逐帧预测时，预测误差会随时间步增加而累积（compounding errors），导致长时序视频生成质量下降。