cs.CV · cs.AI · cs.RO · arXiv 2605.15725

DiLA: Disentangled Latent Action World Models

通过内容-结构解耦,在潜在动作模型中同时实现高级动作抽象与高保真视频生成
Tianqiu Zhang · Muyang Lyu · Yufan Zhang · Fang Fang · Si Wu  |  2026

Latent Action Models (LAMs) 面临"动作抽象"与"生成保真度"之间的根本性权衡。DiLA 通过将视频帧分解为结构(structure)通道和内容(content)通道,让潜在动作编码空间布局(运动信息),内容记忆保留视觉细节,从而在不牺牲生成质量的前提下学到连续且语义结构化的潜在动作空间。

4× NVIDIA A100 (80GB) 123M 可训练参数 无动作标注自监督训练 📄 arXiv:2605.15725 🌐 Project Page
latent action model world model content-structure disentanglement video generation visual planning cross-embodiment transfer 机器人操作 世界模型

01 动机 Motivation

Latent Action Models (LAMs) 是一类以无监督方式从视频中提取潜在动作表示的世界模型。然而,已有方法在动作抽象生成保真度之间存在难以调和的权衡:通过 Vector Quantization 或 VAE 强化瓶颈可以提升动作抽象质量,却以牺牲视频帧的视觉细节为代价;而保留视觉细节又会导致结构化动作表示退化。

"The predictive bottleneck inherent in latent action learning serves as a driving force for disentanglement."

作者将这一现象称为 "LAM Trade-off",并提出核心洞察:仅需预测帧间差异的结构变化即可完成视频预测,这天然驱动了内容与结构的解耦。通过显式地将两条路径分离——结构通道(dynamics)和内容通道(appearance)——DiLA 绕开了这一权衡。

teaser: co-evolution of latent actions and disentanglement
图1:潜在动作与解耦效果随受限预测瓶颈的共同演化。随着训练推进,结构通道逐渐专注于运动信息,内容通道保留静态外观,两者实现清晰分离。
41.44%VP² 视觉规划聚合成功率(vs. AdaWorld 21.54%)
0.774RT-1 SSIM↑(视频生成质量最优)
0.206RT-1 LPIPS↓(感知质量最优)
0.009Push-T Linear Probing MSE↓(动作解码最优)

02 方法 Method

DiLA 由三个核心模块组成:结构通道(Structure Pathway)提取并预测帧间的空间布局变化;内容通道(Content Pathway)通过 Mamba-based memory 聚合静态视觉特征;Fusion Decoder 将两路信息融合重建目标帧。整个系统无需任何动作标注,以自监督 teacher-forcing 方式端到端训练。

DiLA architecture
图2:DiLA 整体架构。输入视频帧经过编码后分流至结构通道(压缩为结构嵌入 s)和内容通道(Mamba 记忆模块聚合特征 cmem)。IDM(Inverse Dynamics Model)从相邻结构嵌入的差异中提取潜在动作 z(dz=256),FDM(Forward Dynamics Model)通过残差更新预测下一状态的结构嵌入;Fusion Decoder 最终将预测结构与内容记忆及初始帧融合重建目标帧。

结构通道 — 潜在动作提取

视频帧经过编码后被压缩为结构嵌入 s,只保留空间布局信息。Inverse Dynamics Model (IDM) 接受相邻两帧的结构嵌入,提取潜在动作 z(维度 dz=256,连续表示);Forward Dynamics Model (FDM) 则将当前结构嵌入与潜在动作结合,通过残差更新预测下一帧的结构嵌入。训练目标包含视觉潜在预测损失 ℒe(λ=2.0)、结构预测损失 ℒs(λ=0.03)、潜在动作一致性损失 ℒz(λ=0.03)以及含 inverse-temporal symmetry 的正则化损失 ℒreg(λ=0.001)。

内容通道 — Mamba 记忆聚合

内容通道的设计目的是隔离静态视觉外观,不引入运动信息。Mamba-based memory 模块在时间维度上聚合来自多帧的静态特征,输出内容记忆向量 cmem。消融实验验证:冻结结构嵌入后,重建序列静止不动,确认内容通道中零运动泄漏(zero motion leakage)

动作迁移 — DINOv2 结构化嵌入

跨场景/跨实体动作迁移通过 DINOv2 特征对齐实现:将源视频提取的结构变化(潜在动作序列)应用于目标初始帧,无需任何微调。这支持了 human→robot、跨视角、跨导航环境等多种 cross-embodiment 迁移场景。

Cross-embodiment action transfer
图3:DiLA 的跨实体动作迁移实验。从人手操作视频中提取潜在动作,直接迁移到机器人手臂(human-to-robot)、不同物体/视角(semantic transfer),以及不同导航环境(navigation),证明所学动作空间具有跨域语义一致性。

03 实验 Experiments

实验在 Something-Something v2 (SSv2)、RT-1 机器人操作、OmniObject3D、RECON/LoopNav 导航等多个数据集上展开,与 LAPA、Moto、AdaWorld、villa-x 等强基线对比,评估视频生成质量(SSIM↑、LPIPS↓)、动作解码能力(Linear Probing MSE↓)以及视觉规划成功率。

视频生成质量(Table 1)

模型SSv2 SSIM↑SSv2 LPIPS↓RT-1 SSIM↑RT-1 LPIPS↓
LAPA0.637±0.0350.565±0.0210.491±0.0140.595±0.005
Moto0.555±0.0430.593±0.0220.762±0.0230.284±0.016
AdaWorld(FDM)0.625±0.0290.576±0.0160.554±0.0140.549±0.012
AdaWorld0.674±0.0080.521±0.0220.634±0.0130.429±0.009
villa-x0.636±0.0360.515±0.0260.576±0.0230.477±0.021
DiLA w/o content0.594±0.0500.450±0.0310.647±0.0220.258±0.015
DiLA0.660±0.0370.356±0.0270.774±0.0100.206±0.013

DiLA 在感知质量指标 LPIPS 上全面领先(两数据集均最优),RT-1 SSIM 也达到最优。SSv2 SSIM 略低于 AdaWorld(0.660 vs. 0.674),但 SSv2 LPIPS 显著优于所有基线(0.356 vs. 0.515+)。

内容-结构解耦验证

Content-structure disentanglement
图4:解耦验证实验。重绑定实验(rebinding)将一个视频的结构嵌入与另一视频的内容记忆组合,可产生融合两者的输出,证明结构通道捕获运动而内容记忆保留静态外观。孤立运动实验(motion isolation)冻结结构嵌入后序列保持静止,确认内容通道零运动泄漏。

消融研究(Table 2 & Table 3)

模型变体Rollouts↓Cycle Transfer↓MSE↓
DiLA w/o content0.344±0.0300.451±0.0180.249±0.035
Discrete z0.334±0.0200.442±0.0280.262±0.033
Gaussian z0.346±0.0190.434±0.0180.265±0.024
DiLA0.263±0.0270.343±0.0220.216±0.031

连续潜在动作表示显著优于离散(Vector Quantization)和高斯变分形式。内容通道对于改善动作迁移质量不可或缺(w/o content 在所有指标上均显著下降)。

OOD 机器人基准线性探测(Table 3)

方法Franka Kitchen↓Block Pushing↓Push-T↓LIBERO Goal↓
Discrete z0.098±0.0140.061±0.0150.023±0.0040.160±0.023
Gaussian z0.125±0.0200.102±0.0230.041±0.0060.190±0.022
DiLA0.073±0.0140.037±0.0130.009±0.0030.119±0.018

潜在动作流形分析

Latent action manifold UMAP analysis
图5:OmniObject3D 数据集上的潜在动作空间 UMAP 可视化。平移动作形成拓扑与实际运动方向一致的二维流形;缩放动作关于恒等点呈对称分布;旋转动作形成连续色谱;组合动作聚类可解释;导航任务(RECON/LoopNav)分别显示连续偏航角谱或离散簇结构。

视觉规划(VP² Benchmark,Table 4)

任务AdaWorldDiLA
Robosuite push63.50±1.71%68.00±1.41%
Open slide5.83±2.85%15.00±5.00%
Blue button29.17±2.50%78.33±3.73%
Green button10.83±2.50%35.83±4.93%
Red button10.00±2.36%20.83±5.95%
Upright block5.00±0.96%3.33±2.72%
聚合成功率21.5441.44

在 Model Predictive Control 视觉规划基准 VP² 上,DiLA 聚合成功率 41.44% 远超 AdaWorld 的 21.54%,在 5/6 个子任务上占优。仅 Upright block 任务(精细控制)AdaWorld 略胜(5.00% vs. 3.33%),与作者分析的局限性一致。

04 局限性 Limitations

说明:以下局限性均为作者在论文中明确陈述(stated by the authors)。
精细控制不稳定(Fine-grained Control)

潜在动作的高级抽象特性牺牲了控制精度,导致在要求精细操作的任务(如 VP² 中的 Upright block)上表现不稳定。抽象层面越高,对底层执行器的精确控制越难保证。

多物体动态建模不足(Multi-object Dynamics)

当前框架将空间布局(结构)与外观(内容)分离,但不支持对多个物体的独立分解建模。场景中存在多个独立运动物体时,模型的解耦能力受限。

长视频自回归误差累积(Long-horizon Video)

以自回归方式逐帧预测时,预测误差会随时间步增加而累积(compounding errors),导致长时序视频生成质量下降。