LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

01 动机

现有机器人基础模型主要依赖行为克隆（behavior cloning），无法充分利用异质具身数据中蕴含的可迁移动力学知识；统一世界模型（Unified World Model）虽然有潜力，却受限于"coarse data usage and fragmented datasets"。如何将数十万小时的人类视频、低质量轨迹与高质量机器人轨迹统一纳入训练，是提升可扩展性的核心挑战。

"Existing methods primarily rely on behavior cloning, which discards transferable dynamics knowledge embedded in heterogeneous embodied data."

LDA-1B overview — 图 1：LDA-1B 总览。模型对策略学习（policy learning）、前向动力学（forward dynamics）、逆向动力学（inverse dynamics）和视觉预测（visual forecasting）进行联合训练，通过任务嵌入（task embedding）区分不同质量与类型的数据。

+21%contact-rich 操作相对 π0.5 提升

+48%灵巧操作相对 π0.5 提升

+23%长视野任务相对 π0.5 提升

30k+EI-30k 数据集小时数

task overview — 图：真实世界评测任务概览，涵盖 Pick & Place、Contact-rich、精细操作（Fine）、长视野（Long-horizon）以及灵巧手（Dexterous）五类任务，横跨 Galbot G1 双臂夹爪机器人与 Unitree G1 灵巧手平台。

02 方法

LDA-1B 的核心是一个多模态扩散 Transformer（MM-DiT），对动作序列与未来视觉 latent 联合去噪，配合通用具身数据摄取（Universal Embodied Data Ingestion）框架，将不同质量与模态的数据统一分配训练目标。

MM-DiT architecture — 图 2：LDA 架构。以冻结的 Qwen3-VL-4B-Instruct 提取 VLM token、冻结的 DINOv3-ViT-s 提供视觉 latent，MM-DiT 通过共享 self-attention 层使动作专家（action expert）与视觉专家（visual expert）交互，同时完成策略学习、前向 / 逆向动力学和视觉预测四项目标的联合训练。

通用具身数据摄取（Universal Embodied Data Ingestion）

框架将异质数据划分为三个角色：无动作人类视频监督视觉预测（visual forecasting）；低质量轨迹提供动力学监督；高质量轨迹同时支持策略学习与动力学学习。Register token 充当缺失模态的占位符，使模型能在统一架构下处理不完整输入。此外，论文构建了 EI-30k 数据集——8,030 小时真实机器人数据 + 8,600 小时仿真数据 + 7,200 小时有动作人类示范 + 10,000 小时无动作人类视频，总计超 30,000 小时，全部以 LeRobot 格式标准化并手动对齐末端执行器坐标系。

EI-30k dataset statistics — 图 4：EI-30k 数据集统计。四类数据来源分布与片段时长直方图，覆盖真实机器人、仿真、有动作和无动作人类视频。

DINO Latent Space 用于视觉预测

与像素空间 VAE 不同，LDA-1B 采用 DINO 特征作为视觉预测目标，"reduce redundant appearance modeling"并避免"entangling appearance, geometry, and dynamics at low-level feature granularity"。仿真实验显示，从 VAE 切换到 DINO 表示使成功率从 20.0% 大幅提升至 55.4%。

DINO latent dynamics visualization — 图 9：DINO latent 前向动力学可视化。预测的未来视觉表示准确捕捉了语义物体结构（如杯子位置与形状），验证了动力学模型的有效性。

训练配置

48 块 H800 GPU，400k 迭代，共 4,608 GPU 小时
Batch size 32 × 48（预训练），学习率 1e-4，余弦调度
Hidden size 1536，16 层，32 注意力头
视觉观测采样率 3 Hz，动作采样率 10 Hz；动作 chunk size = 16，历史帧数 = 2

scaling analysis — 图 10：数据规模分析。随着训练数据增加至 30,000 小时，动作预测误差降至 6.6，验证了 LDA-1B 的良好可扩展性。

03 实验

在仿真（RoboCasa-GR1）和真实机器人（Galbot G1 夹爪 + Unitree G1 灵巧手）上与 GR00T-N1.6、GR00T-EI10k、UWM-1B、π0.5 进行对比；采用少样本微调（few-shot fine-tuning）评估迁移效率。

仿真基准：RoboCasa-GR1

模型	成功率（Success Rate）
UWM-1B	19.3%
GR00T-N1.6	47.6%
GR00T-EI10k	51.3%
LDA-1B（本文）	55.4%

消融实验显示，将视觉 latent 从 VAE 替换为 DINO 是最关键的设计选择，成功率从 20.0% 跃升至 55.4%。

真实世界抓取操作

gripper manipulation results — 图 4：真实世界夹爪操作成功率对比（8 类任务）。LDA-1B 在 Contact-rich（+21%）、Long-horizon（+23%）类任务上超越 π0.5；"Clean the Rubbish"长视野双臂任务中 LDA-1B 达 35%，基线全部为 0%。

灵巧手操作

dexterous manipulation results — 图 5：灵巧操作对比（3 低自由度 BrainCo 手 + 2 高自由度 Sharpa 手）。LDA-1B 在"Pull Nail"达 80%（vs π0.5 大幅失败），在"Flip Bread"高自由度任务达 90%（vs π0.5 仅 10%），整体领先 48%。

泛化能力（Table III）

测试条件	LDA-1B 成功率
未见物体 / 背景	60%
分布外（OOD）位置	40%

在两项泛化测试中 LDA-1B 均显著超越基线模型。

混合质量数据微调（Table IV）

在低质量轨迹加入后，LDA-1B 性能提升 10 个百分点；而 π0.5 在同等条件下下降 10–20 个百分点，验证了通用数据摄取框架对低质量数据的有效利用能力。

目标梯度协调性

余弦相似度分析（gradient cosine similarity）显示，四项训练目标在 400k 步后梯度方向高度一致，表明联合训练没有导致目标冲突。

04 局限性

注：以下局限性由论文作者明确说明，并非推断。

固定 DINO 视觉特征的局限

模型依赖冻结的 DINO 视觉编码器（DINOv3-ViT-s），预训练阶段视觉表示不参与更新，"reliance on fixed DINO visual features … may constrain generalization to new visual perspectives"。未来工作计划联合学习视觉表示与潜在动力学。

以自我为中心（egocentric）的摄像头视角为主

EI-30k 数据集及训练任务主要使用第一人称（head-mounted 或 wrist）视角，"predominantly egocentric camera viewpoints … may constrain generalization to new visual perspectives"，对第三人称视角场景的泛化尚未充分验证。

计算成本较高

预训练需要 48 块 H800 GPU 共 4,608 GPU 小时。虽然推理时只需单次前向传播，但大规模预训练的资源门槛仍较高，限制了社区复现的便利性。（此条为设计推断，论文未单独列出。）