3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

01 动机 Motivation

模仿学习为机器人提供了一条习得复杂技能的有效路径，但现有方法主要依赖 2D 图像或深度图作为视觉输入，在处理空间理解、视角变化与实例泛化等问题时存在明显局限。如何以最简单的方式引入 3D 信息，同时保持策略学习的高效性与泛化性，是本文要解决的核心问题。

"Enabling robots to dexterous manipulation of objects is a longstanding challenge for roboticists, primarily due to the necessity to manage a broader spectrum of motor skills… Visual imitation learning, which takes high-dimensional visual observations such as images or depth maps, eases the need for task-specific state estimation and thus gains its popularity."

现有方法（如 Diffusion Policy）以 2D RGB 图像为输入，面临两大核心挑战：

空间感知不足：2D 图像缺乏深度信息，难以精确理解物体在三维空间中的位置与形状，对灵巧操作（如倒液、卷薄片）尤为不利。
泛化能力有限：基于图像的策略对视角变化、光照变化和目标外观变化高度敏感，往往需要大量多样化的演示数据才能泛化。

本文核心假设：稀疏点云提供的紧凑 3D 表征天然具备几何一致性，无需颜色通道即可实现优越的泛化，且单视角点云（仅一台 RealSense L515 相机）已足够。

3D space generalization — Fig. 3：**在 3D 空间中以少量数据实现泛化。**以 MetaWorld Reach 任务为例，仅给定 5 条演示（红色点），在 1000 次评估中可视化成功的评估点（蓝色）。DP3 在整个 3D 空间中均可成功；Diffusion Policy 和 IBC 仅在局部成功；BC-RNN 则几乎无法学习。从左到右成功次数：0 / 285 / 327 / 415。

72仿真任务总数

85%真实机器人平均成功率

74.4仿真平均成功率（DP3）vs 59.8（Diffusion Policy）

24.2%相对提升（vs Diffusion Policy）

02 方法 Method

DP3 由两个模块构成：Perception（感知）模块将来自单视角深度相机的稀疏点云编码为紧凑的 3D 特征；Decision（决策）模块以 Diffusion Policy 为骨干，在机器人状态（关节角）条件下预测动作序列。两模块端到端联合训练。

DP3 pipeline overview — Fig. 2：**DP3 端到端训练与评估流程。**训练阶段：感知模块从点云中提取紧凑 3D 表征，决策模块（Diffusion Policy）基于该表征与机器人状态生成动作。评估阶段：机器人通过单目深度相机采集点云，实时执行推理得到动作序列。

Perception：从点云到紧凑 3D 表征

深度图经相机内参投影为点云，随后经过以下处理：

裁剪（Cropping）：保留以机器人为中心的边界框内的点，去除地面与背景噪声，减少冗余点。
下采样（Downsampling）：使用最远点采样（FPS）将点云稀疏化至 512 或 1024 点，大幅降低计算量。
颜色通道去除：不使用 RGB 颜色，仅保留 XYZ 坐标，从而对外观变化天然鲁棒。
DP3 Encoder：采用轻量 MLP 网络对点云编码，最终输出 64 维紧凑特征向量 v。该设计远比 PointNet++、Point Transformer 等复杂编码器计算高效，实验表明其精度也更优（见 Table V）。

3D visual observations in simulation — Fig. 4：**仿真中的 3D 视觉观测。**从多个不同仿真任务中采样，展示经过下采样处理后的点云。点云清晰呈现了机器人末端执行器与目标物体的空间结构，无需颜色信息即可区分关键部件。

Decision：Diffusion Policy 动作生成

决策模块采用基于卷积网络的 Diffusion Policy（DDIM 噪声调度器）。以机器人关节状态 s 与感知特征 v 为条件，通过去噪过程预测未来 T 步动作序列。训练目标为：

L = MSE(ε^θ(α_ka⁰ + β_kε, k, v, s), ε)

其中 α_k、β_k 为噪声调度参数，采用 one-step noise adding 策略。推理时使用 sample prediction（而非 epsilon prediction）以获得更快的收敛速度。实现细节：使用卷积网络 Diffusion Policy，DDIM 噪声调度；在 MetaWorld 任务上训练 1000 epochs，其他任务训练 8000 epochs；batch size 为 128；Projection head 输出维度为 1024 或 256。

03 实验 Experiments

仿真基准：72 个任务，跨 7 个领域（Adroit、Bi-DexHands、DexArt、DexDeform、DexMV、HORA、MetaWorld），涵盖阴影手 / Allegro 手 / 平行夹爪等多种机器人形态，任务类型包含刚性/变形物体操作。每个任务仅使用 10 条演示（DexArt 和 HORA 除外）。真实机器人：4 个灵巧任务（Roll-Up、Dumpling、Drill、Pour），每任务 40 条演示，使用 Frankia 手臂 + Allegro 手 / 平行夹爪，RealSense L515 单目深度相机。

Simulation benchmark results table — Table II：**仿真基准对比（72 任务平均成功率）。**DP3 在平均成功率上达到 **74.4±29**，显著优于 Diffusion Policy（59.8±9）、BCRNN（48±17）、IBC（0±0）及其 3D 变体。DP3 与所有基线相比均有明显提升，且在困难任务（如 Adroit Hammer 100±0、DexArt Assembly 99±1）上表现尤为突出。

算法	仿真平均（72任务）	Adroit Hammer	MetaWorld Easy	真实机器人平均
DP3	74.4 ± 29	100 ± 0	90.9	85%
Diffusion Policy	59.8 ± 9	48 ± 17	95.0	—
BCRNN	48 ± 17	0 ± 0	—	—
IBC	0 ± 0	0 ± 0	—	—

Real robot benchmark tasks — Fig. 10：**真实机器人基准。**4 个灵巧操作任务：(1) Roll-Up — Allegro 手将硅胶薄片卷成卷；(2) Dumpling — 捏合薄片边缘制成饺子形；(3) Drill — 抓住电钻并触碰目标绿色方块；(4) Pour — 抓取碗、倒入肉糜、放回桌面。图示展示了各任务的关键阶段点云轨迹。

关键发现

效率优势：DP3 在 ~500 epochs 内收敛，而 Diffusion Policy 需要 3000 epochs 且常陷入次优。
少演示扩展性：仿真中大多数任务仅用 10 条演示；真实任务用 40 条演示。DP3 在 Adroit 类任务中以更少演示达到可比精度。
安全性优势：DP3 安全违规率（Safety Violation Rate）远低于基于图像的基线，在 Roll-Up 任务上为 0，总平均为 0.0，而 Diffusion Policy (Depth) 平均为 21.0。
推理速度：DP3 推理 58.1ms、预测 4 个动作步，而 PointNeXt 等复杂编码器推理更慢（60–120ms）。

消融实验 Ablations

论文对 3D 表征选择、点云编码器设计和 DP3 设计细节进行了系统消融（Tables IV–VII）：

3D 表征对比（Table IV）：点云 > RGB-D 图像 > Depth 图像 > Voxel，使用点云的 DP3 在 6 个消融任务上平均成功率 100±0，而 RGB-D 为 62±c、Depth 为 80±c（各任务差异较大）。
点云编码器对比（Table V）：DP3 的轻量 MLP Encoder 平均 72.3，优于 PointNet（15.7）、PointNet++（16.0）、Point Transformer（26.0）等。作者将其归因于预训练编码器使用固定相机、需特征变换，与 DP3 的单视角设置不兼容。
设计选项（Table VII）：裁剪点云 (+)、使用 LayerNorm、Sample prediction、Projection head 尺寸 1024 等组合最终达到平均 72.3，消除任意一项均会导致性能下降。

Real-world robot setup and learning curves — 左：DP3 真实机器人实验装置，包含 Allegro 手与 Franka 手臂，以及 RealSense L515 深度相机（"DP3"字样由薄片摆放而成）。右：MetaWorld 任务学习曲线对比，DP3（蓝色）收敛速度明显快于 Diffusion Policy（红色），epsilon prediction（虚线）也具有竞争力。

04 局限性 Limitations

Note：论文 Conclusion 部分明确提出一条局限性（stated）；其余由设计特点推断（inferred from the design）。

最优 3D 表征尚未确定（stated）

论文明确指出："Though we demonstrate the importance of 3D representations, the optimal 3D representation for control is still yet discovered." 当前 DP3 选择了稀疏点云 + 轻量 MLP，但其他 3D 表征（如隐式场、Gaussian splatting、dense voxel grid）是否更优仍是开放问题。

视角变化的局限：依赖准确的相机-机器人变换（inferred）

DP3 在视角泛化实验（Table IX）中，对轻微视角偏移通过点云变换保持一致性；但论文也指出"it is important to acknowledge that while the network can generalize across minor variations in camera views, significant changes might be hard to handle." 较大视角变化（如从顶视到侧视）仍具挑战。

复杂场景中的点云质量限制（inferred）

DP3 使用单目深度相机，点云质量依赖深度图精度。在遮挡严重或反光材质（如金属、玻璃）场景下，点云噪声增大；同时论文也提及 "Cluttered Scenes" 需要 50 条演示（对比标准 40 条），说明场景复杂度对数据需求有影响。

任务范围：目前限于单阶段操作（inferred）

论文提及双手操作、可变形物体操作等复杂场景均在仿真中测试，真实机器人任务（4 个）均为单阶段。论文明确将"exploring tasks with long horizons"列为未来工作方向。