RSS 2026 · 机器人基础模型

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

十亿参数机器人基础模型,通过统一世界建模从 3 万小时异构具身数据中学习
Jiangran Lyu, Kai Liu, Xuheng Zhang, Haoran Liao, Yusen Feng, Wenxuan Zhu, Tingrui Shen, Jiayi Chen, Jiazhao Zhang, Yifei Dong, Wenbo Cui, Senmao Qi, Shuo Wang, Yixin Zheng, Mi Yan, Xuesong Shi, Haoran Li, Dongbin Zhao, Ming-Yu Liu, Zhizheng Zhang, Li Yi, Yizhou Wang, He Wang

LDA-1B 提出一个统一世界模型框架,对策略学习、前向动力学、逆向动力学与视觉预测四类目标进行联合训练,使模型能够从异质具身数据(人类视频、低质量轨迹、高质量轨迹)中充分汲取知识,在真实机器人抓取、灵巧手操作和长视野任务中均超越 π0.5 和 GR00T-N1.6 等现有方法。

RSS 2026 1B 参数 EI-30k: 30,000+ 小时 📄 arXiv:2602.12215
robot foundation model latent dynamics diffusion transformer DINO 具身智能 embodied AI world model heterogeneous data 灵巧操作 data scaling

01 动机

现有机器人基础模型主要依赖行为克隆(behavior cloning),无法充分利用异质具身数据中蕴含的可迁移动力学知识;统一世界模型(Unified World Model)虽然有潜力,却受限于"coarse data usage and fragmented datasets"。如何将数十万小时的人类视频、低质量轨迹与高质量机器人轨迹统一纳入训练,是提升可扩展性的核心挑战。

"Existing methods primarily rely on behavior cloning, which discards transferable dynamics knowledge embedded in heterogeneous embodied data."
LDA-1B overview
图 1:LDA-1B 总览。模型对策略学习(policy learning)、前向动力学(forward dynamics)、逆向动力学(inverse dynamics)和视觉预测(visual forecasting)进行联合训练,通过任务嵌入(task embedding)区分不同质量与类型的数据。
+21%contact-rich 操作相对 π0.5 提升
+48%灵巧操作相对 π0.5 提升
+23%长视野任务相对 π0.5 提升
30k+EI-30k 数据集小时数
task overview
图:真实世界评测任务概览,涵盖 Pick & Place、Contact-rich、精细操作(Fine)、长视野(Long-horizon)以及灵巧手(Dexterous)五类任务,横跨 Galbot G1 双臂夹爪机器人与 Unitree G1 灵巧手平台。

02 方法

LDA-1B 的核心是一个多模态扩散 Transformer(MM-DiT),对动作序列与未来视觉 latent 联合去噪,配合通用具身数据摄取(Universal Embodied Data Ingestion)框架,将不同质量与模态的数据统一分配训练目标。

MM-DiT architecture
图 2:LDA 架构。以冻结的 Qwen3-VL-4B-Instruct 提取 VLM token、冻结的 DINOv3-ViT-s 提供视觉 latent,MM-DiT 通过共享 self-attention 层使动作专家(action expert)与视觉专家(visual expert)交互,同时完成策略学习、前向 / 逆向动力学和视觉预测四项目标的联合训练。

通用具身数据摄取(Universal Embodied Data Ingestion)

框架将异质数据划分为三个角色:无动作人类视频监督视觉预测(visual forecasting);低质量轨迹提供动力学监督;高质量轨迹同时支持策略学习与动力学学习。Register token 充当缺失模态的占位符,使模型能在统一架构下处理不完整输入。此外,论文构建了 EI-30k 数据集——8,030 小时真实机器人数据 + 8,600 小时仿真数据 + 7,200 小时有动作人类示范 + 10,000 小时无动作人类视频,总计超 30,000 小时,全部以 LeRobot 格式标准化并手动对齐末端执行器坐标系。

EI-30k dataset statistics
图 4:EI-30k 数据集统计。四类数据来源分布与片段时长直方图,覆盖真实机器人、仿真、有动作和无动作人类视频。

DINO Latent Space 用于视觉预测

与像素空间 VAE 不同,LDA-1B 采用 DINO 特征作为视觉预测目标,"reduce redundant appearance modeling"并避免"entangling appearance, geometry, and dynamics at low-level feature granularity"。仿真实验显示,从 VAE 切换到 DINO 表示使成功率从 20.0% 大幅提升至 55.4%。

DINO latent dynamics visualization
图 9:DINO latent 前向动力学可视化。预测的未来视觉表示准确捕捉了语义物体结构(如杯子位置与形状),验证了动力学模型的有效性。

训练配置

scaling analysis
图 10:数据规模分析。随着训练数据增加至 30,000 小时,动作预测误差降至 6.6,验证了 LDA-1B 的良好可扩展性。

03 实验

在仿真(RoboCasa-GR1)和真实机器人(Galbot G1 夹爪 + Unitree G1 灵巧手)上与 GR00T-N1.6、GR00T-EI10k、UWM-1B、π0.5 进行对比;采用少样本微调(few-shot fine-tuning)评估迁移效率。

仿真基准:RoboCasa-GR1

模型成功率(Success Rate)
UWM-1B19.3%
GR00T-N1.647.6%
GR00T-EI10k51.3%
LDA-1B(本文)55.4%

消融实验显示,将视觉 latent 从 VAE 替换为 DINO 是最关键的设计选择,成功率从 20.0% 跃升至 55.4%。

真实世界抓取操作

gripper manipulation results
图 4:真实世界夹爪操作成功率对比(8 类任务)。LDA-1B 在 Contact-rich(+21%)、Long-horizon(+23%)类任务上超越 π0.5;"Clean the Rubbish"长视野双臂任务中 LDA-1B 达 35%,基线全部为 0%。

灵巧手操作

dexterous manipulation results
图 5:灵巧操作对比(3 低自由度 BrainCo 手 + 2 高自由度 Sharpa 手)。LDA-1B 在"Pull Nail"达 80%(vs π0.5 大幅失败),在"Flip Bread"高自由度任务达 90%(vs π0.5 仅 10%),整体领先 48%。

泛化能力(Table III)

测试条件LDA-1B 成功率
未见物体 / 背景60%
分布外(OOD)位置40%

在两项泛化测试中 LDA-1B 均显著超越基线模型。

混合质量数据微调(Table IV)

在低质量轨迹加入后,LDA-1B 性能提升 10 个百分点;而 π0.5 在同等条件下下降 10–20 个百分点,验证了通用数据摄取框架对低质量数据的有效利用能力。

目标梯度协调性

余弦相似度分析(gradient cosine similarity)显示,四项训练目标在 400k 步后梯度方向高度一致,表明联合训练没有导致目标冲突。

04 局限性

注:以下局限性由论文作者明确说明,并非推断。
固定 DINO 视觉特征的局限

模型依赖冻结的 DINO 视觉编码器(DINOv3-ViT-s),预训练阶段视觉表示不参与更新,"reliance on fixed DINO visual features … may constrain generalization to new visual perspectives"。未来工作计划联合学习视觉表示与潜在动力学。

以自我为中心(egocentric)的摄像头视角为主

EI-30k 数据集及训练任务主要使用第一人称(head-mounted 或 wrist)视角,"predominantly egocentric camera viewpoints … may constrain generalization to new visual perspectives",对第三人称视角场景的泛化尚未充分验证。

计算成本较高

预训练需要 48 块 H800 GPU 共 4,608 GPU 小时。虽然推理时只需单次前向传播,但大规模预训练的资源门槛仍较高,限制了社区复现的便利性。(此条为设计推断,论文未单独列出。)