cs.RO · cs.CV · arXiv 2412.14957

Dream to Manipulate: 组合式世界模型赋能机器人模仿学习

Compositional World Models Empowering Robot Imitation Learning with Imagination
Leonardo Barcellona, Andrii Zadaianchuk, Davide Allegro, Samuele Papa, Stefano Ghidoni, Efstratios Gavves  ·  2024年12月(修订2025年3月)

本文提出 DreMa,一个将机器人世界模型视为"可学习数字孪生"的框架。系统结合 Gaussian Splatting 与物理仿真器,使机器人能够"想象"新颖的物体配置并预测动作后果,从而以极少的示范数据高效学习操控策略,最终在真实 Franka Emika Panda 机器人上实现每个任务变体仅需单次示范(one-shot)的策略学习。

机器人学习 Gaussian Splatting 模仿学习 物理仿真 📄 arXiv:2412.14957 🌐 项目主页
关键词robot manipulationimitation learningworld modelGaussian Splattingcompositional scene representation数据增广模仿学习等变变换物理仿真one-shot learning

01 动机

机器人操控策略学习面临一个根本性挑战:如何从极少量的示范中泛化到未见过的物体配置?现有世界模型往往在训练分布之外产生不真实的"幻觉",无法提供可靠的数据增广。

"We present DreMa, which builds a compositional manipulation world model, treated as a learnable digital twin of the environment, that explicitly models the environment composing object assets, a robot agent model, world dynamics, and manipulation tasks."
DreMa 框架概览
图1:DreMa 的"想象"流程概览。系统从真实环境图像出发,通过场景分解(scene decomposition)获取物体级 Gaussian Splatting 表示,再经由物理引擎进行等变变换(equivariant transformations),生成多样化的合成示范数据,最终用于训练操控策略。
+9.1%单任务平均成功率提升(vs PerAct 基线,仿真)
+13.1%多任务平均成功率提升(vs PerAct 基线,仿真)
62.9%真实机器人分布内成功率(DreMa,5个任务均值)
1-shot真实机器人每任务变体所需示范数

02 方法

DreMa 将世界表示为四个组件的组合:K 个物体资产(Object Assets)机器人智能体模型世界动力学算子(Physics Engine)以及操控任务集合。通过在此组合表示上施加等变变换,系统可以低成本合成大量真实且多样化的示范。

系统流程图
图2:DreMa 系统处理流程。(1)输入真实环境视频;(2)使用开放词汇跟踪(DEVA)进行场景分解,为每个物体生成分割掩码;(3)基于掩码为每个物体独立重建 2D Gaussian Splatting 表示;(4)将 Gaussian Splat 转换为网格(mesh)并集成进 PyBullet 物理仿真器;(5)在仿真中施加等变变换并渲染新颖视角,生成合成示范数据。

物体级 3D 重建

系统使用带深度监督的 2D Gaussian Splatting 为每个物体独立建模。每个 Gaussian 表示为 g = (p, r, s, α, c),分别编码位置、朝向、尺度、不透明度和颜色,支持高质量新视角合成。场景分解通过开放词汇跟踪器 DEVA 自动完成,仅需"object""table"等简单文本提示。

物理约束动力学

Gaussian Splat 被转换为网格 M_k,集成至 PyBullet 物理仿真器。位置与姿态更新遵循牛顿力学: μ_{t+1} = μ_t + Δμ_{1…K}ρ_{t+1} = Δρ_{1…K} · ρ_t。物理引擎保证了变换后场景的物理合理性,避免了纯神经网络生成方法的"幻觉"问题。

等变变换数据增广

针对操控任务的数据增广需要保持任务语义的等变性。DreMa 设计了三类变换:

等变变换可视化
图3:三种等变变换效果可视化。上行:示范起始状态;下行:示范目标状态。从左至右依次为:等变平移(Equivariant Translation)、等变旋转(Equivariant Rotation)、物体旋转(Object Rotation)。变换后场景在视觉上真实,且严格保持任务的成功条件。

03 实验

实验分为两部分:(1)基于 RLBench 仿真基准的系统评估,以 PerAct 为基线策略,测试 9 个任务的单次与多次示范设置;(2)在真实 Franka Emika Panda 机器人上的 5 个操控任务验证,每任务各测试 10 个分布内(in-distribution)和 10 个分布外(out-of-distribution)配置。

仿真实验:RLBench 基准(one-shot,每变体1个示范)

任务 PerAct Original DreMa + Original 提升
Close jar38.4%51.2%+12.8%
Insert peg0.0%2.4%+2.4%
Lift22.8%23.6%+0.8%
Pick cup13.2%34.4%+21.2%
Sort shape6.4%11.2%+4.8%
平均16.0%25.1%+9.1%

真实机器人实验:Franka Emika Panda(成功率 %)

任务(示范数) PerAct 分布内 PerAct 分布外 DreMa 分布内 DreMa 分布外
Pick block(4 demos)55%50%90%90%
Pick shape(5 demos)30%10%35%30%
Push(3 demos)40%10%80%60%
Place object(4 demos)20%10%65%40%
Erase(4 demos)30%20%50%50%
平均31.7%25.0%62.9%58.3%
随数据量增加的性能曲线
图4:随原始数据量增加,增广数据的持续增益。纵轴为任务成功率,横轴为原始示范数量。蓝色线(DreMa)在两个任务(slide block 和 sort shape)上始终高于橙色线(PerAct Original)。关键发现:"Imagined demonstrations keep improving imitation learning even with increasing number of original data"——即使原始数据增多,想象示范仍持续提升性能。特别地,DreMa 使用 5 个示范达到了 PerAct 使用 20 个示范才能达到的精度(sort shape:81% vs 76%)。

消融实验

作者在 close jar 任务上分析了各变换组件的贡献(所有结果均为 PerAct 策略、1 shot 设置):

配置Close Jar 成功率
仅 Roto-translation41.2%
仅 Object rotation25.2%
两者组合(DreMa 完整)51.2%

世界模型定位精度(表3,真实机器人实验):Pick block 的平均定位误差为 0.010 m,Pick shape 为 0.050 m,Push 为 0.049 m,总体均值 0.038 m,验证了 Gaussian Splatting + 物理仿真管线的定量准确性。

关键点可视化
图5:示范数量对关键点检测的影响(place shape 任务)。从左至右分别为使用 1、5、20 个原始示范时的关键点预测结果(红点为预测关键点)。即使使用极少量示范,DreMa 也能通过增广提供足够的训练信号。

04 局限性

说明:以下局限性均为论文作者明确陈述(stated),见原文 Appendix J 及正文讨论。
需要完整可观测场景(Full Observability Requirement)

当前系统假设整个环境对传感器完全可见,需要完整的环境观测来支持物理建模和外观建模。遮挡严重或视角受限的场景会导致重建质量下降。

仅支持刚性物体(Rigid Objects Only)

现有框架仅能处理刚性物体;铰接(articulated)和可变形(deformable)物体仍是挑战,尽管 Dynamic Gaussian Splatting 领域已有初步进展。

开环设计(Open-Loop Design)

世界模型在构建时不集成感觉反馈(sensory feedback)。论文指出,引入感觉反馈可提升准确性并改进策略学习,但这尚未在当前系统中实现。

大规模场景可扩展性(Scalability)

对于大型、多样化的环境,仿真复杂度会显著增加,当前系统的可扩展性尚未在此类场景中得到验证。

工程依赖(Engineering Requirements)

系统需要精细的相机标定(camera calibration)和物理参数估计(physical parameter estimation),论文 Appendix J 中有详细说明。这些工程要求提高了部署门槛,限制了"即插即用"的实用性。