机器人操作 · ECCV 2024

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

用动态 Gaussian Splatting 挖掘操作场景时空动态,提升多任务机器人操控成功率
Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang  ·  Tsinghua University, NTU, CMU

ManiGaussian 将 3D Gaussian Splatting 扩展到动态时序场景,构建 Gaussian 世界模型来预测未来场景状态,以此为监督信号引导机器人理解物体交互动态,从而大幅提升语言条件下的多任务操控能力。在 RLBench 10 个任务的评测中,ManiGaussian 以 44.8% 的平均成功率超越 SOTA GNFactor 13.1 个百分点

RLBench 10 tasks · 166 variations 2024 · cs.RO / cs.CV 2× RTX 4090 · 100k iters 📄 arXiv:2403.08321 Project Page
robotic manipulation Gaussian splatting world model 动态场景建模 多任务学习 语言条件操作 future scene prediction RLBench 时空动态 scene dynamics

01 动机 Motivation

语言条件机器人操控任务需要在非结构化环境中完成复杂的物体交互。现有的感知类方法(perceptive methods)提取语义特征做动作预测,而生成类方法(generative methods)通过自监督重建 3D 场景来辅助学习——但两类方法都忽略了一个关键因素。

"Conventional robotic manipulation methods...ignore the scene-level spatiotemporal dynamics that depict the physical interaction among objects during manipulation."

机器人在推、抓、拧、滑等任务中,物体之间存在时序上的因果依赖:夹爪移动如何引发物体位移?下一帧场景会如何变化?若模型无法建模这种时空动态,就难以在 long-horizon 或需要多步推理的任务中保持稳定。ManiGaussian 的核心思路是:以「预测未来场景」作为额外监督信号,迫使模型内化场景动态。

teaser
图 1:对比展示。在 "stack two rose blocks" 任务中,GNFactor 无法正确抓取绿色底座,而 ManiGaussian 通过编码场景动态成功完成任务。右侧显示两个模型在 RLBench 全部 10 个任务上的平均成功率对比:ManiGaussian(44.8%)vs GNFactor(31.7%),以及训练效率(2.29× 更快达到相同性能)。
44.8%平均成功率(10 tasks)
+13.1%超越 GNFactor(SOTA)
2.29×训练速度(相同性能)
166任务变体总数

02 方法 Method

ManiGaussian 由两个核心模块组成:(1)动态 Gaussian Splatting 框架——将语义特征传播建模在 Gaussian 嵌入空间中;(2)Gaussian 世界模型——基于当前观测和动作预测未来场景,为策略学习提供监督信号。

pipeline
图 2:ManiGaussian 整体框架。输入 RGB-D 图像经提升(lifting)和体素化(voxelization)后进入动态 Gaussian Splatting 模块。Gaussian 世界模型由表征网络 q_ϕ、Gaussian regressor g_ϕ、变形预测器 p_ϕ 和 Gaussian renderer 组成,输出未来场景预测用于辅助监督;最终动作预测头输出末端执行器的平移(ℝ^100³ 体素空间)、旋转(ℝ^(72×3))、开合度和碰撞信号。

动态 Gaussian Splatting(Dynamic Gaussian Splatting)

标准 3DGS 用静态 Gaussian 基元表示场景,参数 θᵢ = (μᵢ, cᵢ, rᵢ, sᵢ, σᵢ, fᵢ) 包含位置、颜色、旋转、尺度、不透明度和语义特征。ManiGaussian 将其扩展为时间相关形式:

θᵢ⁽ᵗ⁾ = (μᵢ⁽ᵗ⁾, cᵢ⁽ᵗ⁾, rᵢ⁽ᵗ⁾, sᵢ⁽ᵗ⁾, σᵢ⁽ᵗ⁾, fᵢ⁽ᵗ⁾)

针对刚体操控任务,位置和旋转随时间变化:μᵢ⁽ᵗ⁺¹⁾ = μᵢ⁽ᵗ⁾ + Δμᵢ⁽ᵗ⁾,而颜色、尺度、不透明度和语义特征保持不变。这样,变形预测器只需预测 Δμ 和 Δr,大大降低了建模难度。

Gaussian 世界模型(Gaussian World Model)

世界模型由四个子模块串联构成:

训练包含 3,000 次迭代的热身阶段(warm-up),期间冻结变形预测器,先建立稳定的几何表征,再加入动态建模。

训练目标(Learning Objectives)

总损失由四项组成:

ℒ = ℒ_Act + λ_Geo · ℒ_Geo + λ_Sem · ℒ_Sem + λ_Dyna · ℒ_Dyna

03 实验 Experiments

在 RLBench 基准的 10 个任务、166 个变体上进行评测,每个任务提供 20 个专家演示。使用单前置摄像头(128×128 分辨率)做推理,20 路多视角摄像头作为 Gaussian Splatting 的训练监督。基线包括 PerAct(感知类)、PerAct(4cam)(4 摄像头版本)和 GNFactor(生成类)。

Table 1:各任务成功率对比(%)

任务 Task PerAct PerAct(4cam) GNFactor ManiGaussian
close jar18.721.325.328.0
open drawer54.744.076.076.0
sweep to dustpan0.00.028.064.0
meat off grill40.065.357.360.0
turn tap38.746.750.756.0
slide block18.716.020.024.0
put in drawer2.76.70.016.0
drag stick5.312.037.392.0
push buttons18.79.318.720.0
stack blocks6.75.34.012.0
Average20.422.731.744.8

注:meat off grill 任务中 PerAct(4cam) 以 65.3% 优于 ManiGaussian 的 60.0%,open drawer 中两者并列最优(76.0%)。其余 8 个任务 ManiGaussian 均为最优。

qualitative results
图 4:定性对比。左列展示 "slide block to yellow target",右列展示 "turn left tap"。GNFactor(上行)在这两个任务中失败,ManiGaussian(下行)通过理解场景动态成功完成操控。
novel view synthesis
图 5:新视角合成与未来场景预测。上行为当前场景的 Gaussian 渲染(不同视角),下行为执行动作后的未来场景预测。模型不仅重建了当前几何,还能预测夹爪交互引发的物体形变。

Table 2:消融实验(%,按任务类别分组)

GeoSemDyna PlanningLong-horizonToolsMotionScrewOcclusion Average
36.02.025.352.04.028.023.6
46.04.052.052.024.060.039.2
46.08.053.364.028.056.041.6
54.010.049.364.024.072.043.6
40.014.060.056.028.076.044.8

消融分析显示:几何重建(Geo)带来最显著的提升(23.6% → 39.2%,+15.6%),说明 3D 几何理解是操控成功的基础;动态预测(Dyna)在 long-horizon 和 occlusion 类任务上效果最突出;三者协同使用达到最优的 44.8%。

learning curve
图 3:学习曲线对比。ManiGaussian 以 2.29× 更快的速度超越 GNFactor 的最终性能,并最终取得 1.18× 的绝对性能提升。横轴为训练步数,纵轴为平均成功率。

04 局限性 Limitations

Note: 以下第一条为论文作者明确陈述(stated)的局限性,其余为从设计中推断的局限性(inferred from the design)。
多视角监督与相机标定要求(Stated)

论文明确指出:"The limitations stem from the necessity of multiple view supervision with camera calibration for the Gaussian Splatting framework." 训练时需要 20 路多视角摄像头及其内外参数,在现实部署场景中(如单目移动机器人)代价较高,限制了方法的实用性。

刚体假设(Inferred)

当前的动态建模仅对刚体物体进行位置和旋转的变形预测,不支持柔性物体(如绳子、布料)或流体的形变。对于高度非刚性的操控任务,方法可能需要扩展。

单步动作预测(Inferred)

ManiGaussian 预测 t→t+1 的未来场景作为监督信号,但对于需要多步规划的 long-horizon 任务(如 "stack blocks" 仅达 12.0%),单步世界模型的预测范围可能不足以充分约束策略。

分辨率与推理效率(Inferred)

训练使用 128×128 分辨率图像,推理仅依赖单一前置摄像头。当场景中存在大量细粒度操控对象时,低分辨率可能导致感知精度下降。此外,Gaussian Splatting 的渲染开销在实时部署中尚待优化。