DeFI：解耦前向与逆向动力学预训练的机器人学习框架

01 动机 Motivation

现有 VLA 模型将视觉生成与动作预测捆绑训练，存在两大根本矛盾：其一，2D 图像空间的未来帧预测目标与 3D 空间的精细动作预测目标本质不对齐；其二，这种耦合训练方式使模型无法充分利用互联网上海量的、仅有视觉内容的无动作标注视频数据。

"VLA models have shown great potential in building generalist robots, but still face a dilemma — misalignment of 2D image forecasting and 3D action prediction. Besides, such a vision-action entangled training manner limits model learning from large-scale, action-free web video data."

DeFI Teaser：解耦预训练示意与实验结果 — **图1：DeFI 框架总览。**左侧：将前向动力学模型（GFDM）在多样化人类与机器人视频上预训练用于未来预测，将逆向动力学模型（GIDM）通过自监督学习在无标注视频转换中推断潜在动作；两者整合后在下游任务上端到端微调。这一解耦预训练范式在 CALVIN、SimplerEnv 和真实世界部署中均取得当前最优结果。

4.51CALVIN ABC-D
平均任务链长度

51.2%SimplerEnv-Fractal
成功率

81.3%真实世界部署
成功率

SOTA三大评测均超越
所有先前方法

02 方法 Method

DeFI 将 VLA 训练拆分为三个阶段：① 独立预训练 GFDM 用于视觉前向动力学；② 独立预训练 GIDM 用于逆向动力学；③ 将两者整合进统一架构后在机器人演示数据上端到端微调。两个模型先各自从最合适的数据中汲取知识，再协同合作共同提升下游任务性能。

DeFI 整体架构图 — **图2：DeFI 三阶段框架。**(a) 阶段一：在海量人类与机器人视频上预训练 GFDM（前向动力学），目标为未来帧预测；(b) 阶段二：在无标注视频转换上以自监督学习预训练 GIDM（逆向动力学），推断隐式动作表征；(c) 阶段三：两模块耦合（Coupled Finetuning），在机器人演示数据上端到端微调，GFDM 输出作为视觉先验指导 GIDM 生成准确动作，并由 diffusion-based action adapter 解码为最终动作。

General Forward Dynamics Model (GFDM)

GFDM 以当前观测 o_t 和语言指令 l 为输入，预测未来视频帧序列。模型基于视频 VAE（2D 或 3D）在 mixed 数据集上预训练：包含多样化人类视频与机器人操作视频，并附加文本条件。由于不依赖动作标注，GFDM 可以利用互联网上大规模的无动作标注视频数据——这是此前 VLA 范式无法实现的。目标函数为预测 latent 的 noise prediction loss。

General Inverse Dynamics Model (GIDM)

GIDM 以相邻视频帧对 (v_t, v_t+1) 为输入，通过自监督学习推断两帧之间发生的隐式动作（latent action）。具体而言，以 NonCausal-Transformer 编码未来帧到 latent action codebook（VQ-VAE 量化），再以 Causal-Transformer 从当前帧出发重建未来帧，从而学习有意义的动作表征而无需任何动作标注。预训练后，GIDM 的 latent 动作将作为 action adapter 的输入，并以下游任务的机器人本体动作（proprioceptive actions）作为监督信号进行微调，使用的是 diffusion-based adapter。

Coupled Finetuning 端到端融合

微调阶段，GFDM 先预测未来帧，将预测的视觉特征（intermediate embeddings）注入 GIDM，从而将丰富的视觉先验引导动作推断。GIDM 接收当前观测、语言指令及 GFDM 提供的未来视觉特征后，经由 diffusion-based action adapter 输出最终机器人动作序列。这一设计既保留了两个预训练模块各自的专长，又通过端到端的梯度传播实现了协同优化。

03 实验 Experiments

在三大评测基准上与先前最优方法对比：CALVIN ABC-D（长序列多任务操作）、SimplerEnv（Fractal 与 Bridge 子集）以及真实世界 Franka Robot 部署。同时进行消融实验分析各组件贡献与预训练规模的影响。

CALVIN ABC-D benchmark

CALVIN 和 SimplerEnv 实验结果表格 — **表1 & 表2：主要定量结果。**CALVIN ABC-D 上，DeFI 的平均任务链长度（average task length，1000 次 rollout）达到 **4.51**，超越 VPP（4.08）、GR-2（3.97）、GROOT-N1（3.90）等先前 SOTA 方法。SimplerEnv-Fractal 上 DeFI 达到 **51.2%** 成功率，超越 OpenVLA-OFT（45.6%）和 π₀（48.4%）。表中加粗数字为 DeFI 结果，*表示作者复现基线值。

Benchmark	次优方法	DeFI（本文）	提升
CALVIN ABC-D（Avg. Len.）	VPP 4.08	4.51	+10.5%
SimplerEnv-Fractal（SR%）	π₀ 48.4%	51.2%	+2.8pp
SimplerEnv-Bridge（SR%）	OpenVLA-OFT 44.8%	49.8%	+5.0pp
Real-world（SR%）	—	81.3%	—

真实世界实验

真实世界 Franka 机器人实验设置与结果 — **图3：真实世界实验。**在 Franka Panda 机器人上部署，评测多种单步操作任务（put the mug, pour water 等）。DeFI 在单任务评估中取得 81.3% 的平均成功率，显著高于 baseline 方法。对复杂任务（如桌面摆放多步流程）的泛化能力也优于对比方法。

消融分析 Ablations

消融实验：预训练有效性、数据规模与离散化策略 — **图4 & 消融表。**左：在 CALVIN 上分别消融 GFDM 预训练与 GIDM 预训练，发现两者均贡献显著，完整 DeFI 最优（Avg. Len. 4.51 vs 仅用 GIDM-pretrain 的 4.19）。中：数据效率实验——使用 10%、50%、100% 的可用训练数据时，DeFI 始终优于 baseline，在 10% 数据条件下性能仅下降约 18%（vs 基线下降约 43%），体现出预训练带来的强泛化性。右：针对 GIDM 中逆向动力学不同离散化方法（VQ-VAE、DINO、IDM）的对比，VQ-VAE 配合 NonCausal 编码器效果最佳。

消融实验进一步发现：① 将 GFDM 预训练移除后性能下降约 0.32 Avg. Len.；② 移除 GIDM 预训练则下降约 0.36；③ 在 Coupled Finetuning 阶段，将 GFDM 的中间表征注入 GIDM 比仅使用预测帧提升更明显，验证了特征级融合的重要性。使用 VQ-VAE 量化隐式动作相比连续 latent 提升了动作表征的稳定性，减少了训练中的梯度干扰（gradient interference）。

04 局限性 Limitations

Note：论文在 Section 5 Conclusion 及附录中对局限性有部分说明；以下条目标注了哪些是作者明确陈述（stated）、哪些是从设计中推断（inferred）。

依赖视频预测质量（stated）

GFDM 的未来帧预测质量直接影响下游动作质量。作者在附录中指出，当视频预测出现较大误差（如快速运动或遮挡场景）时，注入 GIDM 的视觉先验可能引入噪声，进而影响动作精度。论文建议后续工作探索更鲁棒的视频生成基础模型。

GFDM 推断开销较大（inferred from design）

在推断阶段 GFDM 需要先生成未来帧（latent video），再传递给 GIDM 解码动作。相比直接动作回归的 VLA，这一两阶段推断流程增加了推断延迟，可能限制对实时控制频率要求极高的任务场景。论文中未报告推断速度数据。

真实世界实验规模有限（inferred）

真实世界评测仅在 Franka Panda 平台上进行，任务种类和数量相对有限，且未涉及双臂、移动底座等更复杂的机器人系统。泛化到其他硬件平台的能力需进一步验证。

SimplerEnv 上部分任务表现不及 baseline（stated）

作者诚实地指出，在 SimplerEnv 的若干特定子任务上，DeFI 并未全面超越所有 baseline（如在某些 Bridge 子集任务上与 OpenVLA-OFT 接近），并将其归因于预训练视频数据域与 SimplerEnv 仿真环境的分布差距。