DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

01 动机 Motivation

机器人操作任务面临两大核心瓶颈：现有世界模型训练数据极度匮乏，而视频中动作标注又极为稀缺。如何从海量无标注的人类日常视频中高效提取交互知识，是构建通用机器人世界模型的关键难题。

"Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels."

DreamDojo overview — 图 1：DreamDojo 通过连续潜在动作作为统一标签，从大规模人类数据集中获取全面的物理知识，并支持遥操作、策略评估和基于模型的规划等下游应用。

44k小时 egocentric 人类视频（史上最大世界模型预训练数据集）

1,179k轨迹数量

≥6,015unique 技能种类

10.81 FPS蒸馏后实时推理速度（较 teacher 提升近 4×）

与已有机器人世界模型数据相比，DreamDojo 数据集在规模上具有压倒性优势：视频时长长 15×，技能种类多 96×，场景数量多 2,000×。

Dataset distribution — 图 2：数据集分布分析——场景频次、每段视频的子任务数量、技能分布及语言标注可视化（技能动词与物体名称）。DreamDojo 的数据混合方案涵盖日常场景中最广泛的交互类型。

02 方法 Method

DreamDojo 以 WAN2.2 视频生成模型为骨干，在其上引入三个关键设计：连续潜在动作（解决无标注问题）、相对动作变换 + 分块注入（提升条件精度），以及时序一致性损失（增强帧间连贯性）。后处理阶段通过两阶段蒸馏管线实现实时推理。

1. 连续潜在动作（Continuous Latent Actions）

核心挑战：大量以自我为中心的人类视频没有动作标注。DreamDojo 采用基于 VAE 的信息瓶颈设计，从相邻帧对中提取紧凑的潜在动作向量，作为代理标签用于条件视频生成。其训练目标同时最大化下一帧预测的似然并最小化潜在动作的 KL 散度：

ℒ^pred = 𝔼[log p_θ(f^t+1|â, f^t)] − β · D_KL(q_φ(â|f^t:t+1) ‖ p(â))

该设计还通过跨具身（cross-embodiment）相似帧对检索验证：不同机器人（或人手）执行相似动作时，其潜在动作向量在空间上高度对齐，表明 latent action 捕捉了真正的运动语义，具备具身无关的迁移能力。

Latent action model architecture — 图 3：潜在动作模型采用信息瓶颈设计，产生连续潜在向量。右侧展示跨具身相似帧对检索结果——不同具身执行相似动作时，对应的 latent action 彼此对齐，验证了其语义一致性。

2. 相对动作变换（Relative Action Transformation）与分块注入（Chunked Action Injection）

直接将动作轨迹全局注入会导致分布宽广、建模困难。DreamDojo 引入两项架构改进：

相对动作变换：将动作向量重参数化为相对于每段 latent frame 起始点的偏移量，使动作分布更集中，降低建模复杂度。
分块动作注入（Chunked Action Injection）：与 WAN2.2 tokenizer 的时序压缩比对齐，将动作以 4 帧为单位分块注入，并严格遵循因果顺序，避免未来动作信息泄漏。

消融实验证明，单独加入分块注入可将 Counterfactual Eval 上的 PSNR 从 19.482 提升至 20.783（+1.3 dB）。

3. 时序一致性损失（Temporal Consistency Loss）与蒸馏管线（Distillation Pipeline）

在标准 flow-matching 目标之外，DreamDojo 额外引入时序一致性损失以匹配帧间过渡：

ℒ_temporal = 𝔼[∑ ‖(zⁱ⁺¹ − zⁱ) − (vⁱ⁺¹ − vⁱ)‖²]

蒸馏管线分两阶段（warmup + distribution matching），将 teacher 模型（35 步，2.72 FPS）压缩为 student 模型（4 步，10.81 FPS），实现约 4× 加速，并通过更长的 context 窗口（1 → 12 帧）大幅提升长程一致性。

03 实验 Experiments

实验在多个具有挑战性的 OOD（out-of-distribution）基准上评估，包括 In-lab Eval、Counterfactual Eval 和 GR-1 Long Eval，以及三类下游应用：策略评估、基于模型的规划和实时遥操作。

架构消融（Table 5 · Counterfactual Eval）

设计组合	PSNR↑	SSIM↑	LPIPS↓
Baseline（无任何改进）	19.448	0.768	0.211
+ Relative actions	19.482	0.772	0.212
+ Chunked injection	20.783	0.790	0.193
+ Temporal loss（完整模型）	20.980	0.796	0.189

蒸馏效果（Table 6 · GR-1 Long Eval）

方法	PSNR↑	SSIM↑	LPIPS↓	FPS↑	预测长度	Context 长度
Teacher（35 步）	14.086	0.442	0.412	2.72	12 帧	1 帧
Student（4 步）	13.146	0.379	0.485	10.81	4 帧	12 帧

Student 在速度和 context 长度上大幅领先 teacher，代价是 PSNR 小幅下降（14.086 → 13.146），在长程生成任务中表现出更好的一致性。

Qualitative ablation results — 图 9：消融对比——应用全部技术（相对动作 + 分块注入 + 时序损失）后，模型在物体建模和动作跟随上均达到最佳效果，定性质量显著优于各消融变体。

下游应用

Downstream applications — 图 5：下游应用结果。左：真实与模拟成功率高度线性相关（Pearson r = 0.995，MMRV = 0.003），表明 DreamDojo 可作为可靠的策略评估器。右：基于模型的规划在高方差策略组上带来 17% 成功率提升，~2× 于 uniform sampling。

策略评估（Policy Evaluation）

Pearson 相关系数：r = 0.995
Mean Maximum Rank Violation：MMRV = 0.003
DreamDojo 模拟成功率与真实成功率高度线性一致，可替代真实环境进行策略排序

基于模型的规划（Model-Based Planning）

使用 5 个 checkpoint 组成 ensemble
高方差策略组：成功率提升 17%
跨策略提案：~2× 优于 uniform sampling
支持 PICO VR 控制器输入的实时遥操作（G1 机器人）

04 局限性 Limitations

Note: 以下局限性均为作者在论文中明确陈述（stated by the authors）。

非常见动作仿真不足

"While DreamDojo demonstrates significant improvements over the baseline, it is by no means perfect when simulating uncommon actions, such as slapping and fast waving."——对于不常见或快速运动，模型生成质量明显下降，反映了训练数据分布对罕见动作的覆盖不足。

策略评估中成功率偏高（失败建模不准确）

"When conducting policy evaluation, the absolute success rates in DreamDojo are often higher than their real counterparts, indicating a limitation in accurately generating nuanced failures."——世界模型倾向于高估策略成功率，对细微失败模式的建模能力有限，影响其作为绝对成功率指标的可靠性。

不支持多视角仿真，缺乏后训练知识保留研究

"Our model does not naturally support multi-view simulation, which is crucial for state-of-the-art policies. Moreover, how to retain the pretrained knowledge as much as possible has not been studied in depth."——单视角输出限制了对依赖多摄像头的先进策略的支持；后训练（post-training）阶段如何保留预训练通用知识亦有待系统研究。未来方向包括更宽泛的动作分布覆盖（如 policy rollouts）以及进一步的推理速度工程优化。