Dream to Manipulate: 组合式世界模型赋能机器人模仿学习

01 动机

机器人操控策略学习面临一个根本性挑战：如何从极少量的示范中泛化到未见过的物体配置？现有世界模型往往在训练分布之外产生不真实的"幻觉"，无法提供可靠的数据增广。

"We present DreMa, which builds a compositional manipulation world model, treated as a learnable digital twin of the environment, that explicitly models the environment composing object assets, a robot agent model, world dynamics, and manipulation tasks."

DreMa 框架概览 — **图1：DreMa 的"想象"流程概览。**系统从真实环境图像出发，通过场景分解（scene decomposition）获取物体级 Gaussian Splatting 表示，再经由物理引擎进行等变变换（equivariant transformations），生成多样化的合成示范数据，最终用于训练操控策略。

+9.1%单任务平均成功率提升（vs PerAct 基线，仿真）

+13.1%多任务平均成功率提升（vs PerAct 基线，仿真）

62.9%真实机器人分布内成功率（DreMa，5个任务均值）

1-shot真实机器人每任务变体所需示范数

02 方法

DreMa 将世界表示为四个组件的组合：K 个物体资产（Object Assets）、机器人智能体模型、世界动力学算子（Physics Engine）以及操控任务集合。通过在此组合表示上施加等变变换，系统可以低成本合成大量真实且多样化的示范。

系统流程图 — **图2：DreMa 系统处理流程。**（1）输入真实环境视频；（2）使用开放词汇跟踪（DEVA）进行场景分解，为每个物体生成分割掩码；（3）基于掩码为每个物体独立重建 2D Gaussian Splatting 表示；（4）将 Gaussian Splat 转换为网格（mesh）并集成进 PyBullet 物理仿真器；（5）在仿真中施加等变变换并渲染新颖视角，生成合成示范数据。

物体级 3D 重建

系统使用带深度监督的 2D Gaussian Splatting 为每个物体独立建模。每个 Gaussian 表示为 g = (p, r, s, α, c)，分别编码位置、朝向、尺度、不透明度和颜色，支持高质量新视角合成。场景分解通过开放词汇跟踪器 DEVA 自动完成，仅需"object""table"等简单文本提示。

物理约束动力学

Gaussian Splat 被转换为网格 M_k，集成至 PyBullet 物理仿真器。位置与姿态更新遵循牛顿力学： μ_{t+1} = μ_t + Δμ_{1…K}，ρ_{t+1} = Δρ_{1…K} · ρ_t。物理引擎保证了变换后场景的物理合理性，避免了纯神经网络生成方法的"幻觉"问题。

等变变换数据增广

针对操控任务的数据增广需要保持任务语义的等变性。DreMa 设计了三类变换：

Roto-translation（旋转平移）：对整个场景（环境 + 所有物体）施加刚体变换，保持机器人与物体的相对关系不变。
Object rotation（物体旋转）：围绕末端执行器最终位置旋转目标物体，模拟物体初始朝向变化。
Verification（合法性验证）：确保变换后的示范满足任务目标，使用距离阈值 τ = 0.015 m 过滤不合法增广。

等变变换可视化 — **图3：三种等变变换效果可视化。**上行：示范起始状态；下行：示范目标状态。从左至右依次为：等变平移（Equivariant Translation）、等变旋转（Equivariant Rotation）、物体旋转（Object Rotation）。变换后场景在视觉上真实，且严格保持任务的成功条件。

03 实验

实验分为两部分：（1）基于 RLBench 仿真基准的系统评估，以 PerAct 为基线策略，测试 9 个任务的单次与多次示范设置；（2）在真实 Franka Emika Panda 机器人上的 5 个操控任务验证，每任务各测试 10 个分布内（in-distribution）和 10 个分布外（out-of-distribution）配置。

仿真实验：RLBench 基准（one-shot，每变体1个示范）

任务	PerAct Original	DreMa + Original	提升
Close jar	38.4%	51.2%	+12.8%
Insert peg	0.0%	2.4%	+2.4%
Lift	22.8%	23.6%	+0.8%
Pick cup	13.2%	34.4%	+21.2%
Sort shape	6.4%	11.2%	+4.8%
平均	16.0%	25.1%	+9.1%

真实机器人实验：Franka Emika Panda（成功率 %）

任务（示范数）	PerAct 分布内	PerAct 分布外	DreMa 分布内	DreMa 分布外
Pick block（4 demos）	55%	50%	90%	90%
Pick shape（5 demos）	30%	10%	35%	30%
Push（3 demos）	40%	10%	80%	60%
Place object（4 demos）	20%	10%	65%	40%
Erase（4 demos）	30%	20%	50%	50%
平均	31.7%	25.0%	62.9%	58.3%

随数据量增加的性能曲线 — **图4：随原始数据量增加，增广数据的持续增益。**纵轴为任务成功率，横轴为原始示范数量。蓝色线（DreMa）在两个任务（slide block 和 sort shape）上始终高于橙色线（PerAct Original）。关键发现："Imagined demonstrations keep improving imitation learning even with increasing number of original data"——即使原始数据增多，想象示范仍持续提升性能。特别地，DreMa 使用 5 个示范达到了 PerAct 使用 20 个示范才能达到的精度（sort shape：81% vs 76%）。

消融实验

作者在 close jar 任务上分析了各变换组件的贡献（所有结果均为 PerAct 策略、1 shot 设置）：

配置	Close Jar 成功率
仅 Roto-translation	41.2%
仅 Object rotation	25.2%
两者组合（DreMa 完整）	51.2%

世界模型定位精度（表3，真实机器人实验）：Pick block 的平均定位误差为 0.010 m，Pick shape 为 0.050 m，Push 为 0.049 m，总体均值 0.038 m，验证了 Gaussian Splatting + 物理仿真管线的定量准确性。

关键点可视化 — **图5：示范数量对关键点检测的影响（place shape 任务）。**从左至右分别为使用 1、5、20 个原始示范时的关键点预测结果（红点为预测关键点）。即使使用极少量示范，DreMa 也能通过增广提供足够的训练信号。

04 局限性

说明：以下局限性均为论文作者明确陈述（stated），见原文 Appendix J 及正文讨论。

需要完整可观测场景（Full Observability Requirement）

当前系统假设整个环境对传感器完全可见，需要完整的环境观测来支持物理建模和外观建模。遮挡严重或视角受限的场景会导致重建质量下降。

仅支持刚性物体（Rigid Objects Only）

现有框架仅能处理刚性物体；铰接（articulated）和可变形（deformable）物体仍是挑战，尽管 Dynamic Gaussian Splatting 领域已有初步进展。

开环设计（Open-Loop Design）

世界模型在构建时不集成感觉反馈（sensory feedback）。论文指出，引入感觉反馈可提升准确性并改进策略学习，但这尚未在当前系统中实现。

大规模场景可扩展性（Scalability）

对于大型、多样化的环境，仿真复杂度会显著增加，当前系统的可扩展性尚未在此类场景中得到验证。

工程依赖（Engineering Requirements）

系统需要精细的相机标定（camera calibration）和物理参数估计（physical parameter estimation），论文 Appendix J 中有详细说明。这些工程要求提高了部署门槛，限制了"即插即用"的实用性。