RSS 2023 · 机器人操作 · Imitation Learning

Diffusion Policy

Visuomotor Policy Learning via Action Diffusion
Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake, Shuran Song  ·  Columbia / MIT / TRI

Diffusion Policy 将去噪扩散概率模型(DDPM)引入机器人策略学习:将机器人动作生成建模为条件去噪扩散过程, 通过学习动作分布的分数函数梯度,在推理时经多步去噪输出一段动作序列。在 4 个操作基准的共 15 个任务中, Diffusion Policy 平均超越现有最优方法 46.9%,并在多个真实机器人任务上达到接近人类示范的性能。

arXiv Mar 2023 · v5 Mar 2024 15 tasks · 4 benchmarks CNN & Transformer variants 📄 arXiv:2303.04137 🌐 Project Page
diffusion policy visuomotor policy imitation learning behavior cloning robot manipulation denoising diffusion 机器人操作 action diffusion

01 动机

机器人 visuomotor 策略学习面临三大核心挑战:多模态动作分布(同一状态存在多种合理行为)、 高维动作序列的时序相关性以及高精度控制要求。 现有方法(显式策略、IBC 隐式策略、BET 序列模型)各有缺陷,均难以同时满足这三点。

"This work presents Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process on robot action space."
Policy Representations
图 1:三种策略表示的对比。 (a) 显式策略直接预测动作,无法表达多峰分布; (b) 隐式策略(IBC)学习能量函数,通过优化寻找最优动作,但训练不稳定; (c) Diffusion Policy 通过学习梯度场将噪声迭代去噪为动作,天然支持多模态分布。
+46.9%平均超越现有 SOTA
(15 个任务)
95%真实 Push-T 任务
成功率(E2E Trans)
0.80真实 Push-T 的 IoU
(人类示范 0.84)
12测试任务总数
(含双臂操作)

为什么现有方法不够用?

显式策略(BC / LSTM-GMM / BET)

  • GMM 等混合模型建模能力有限,难以捕捉复杂多峰分布
  • BET(Behavior Transformer)在精细操作任务中准确率显著下降
  • 高精度任务(如 Square、ToolHang)成功率偏低

隐式策略(IBC)

  • 训练极不稳定:训练 loss 下降,但策略成功率剧烈震荡,难以选择 checkpoint
  • 推理时需要优化能量函数,计算开销大且容易陷入局部极小
  • 在仿真多个任务上成功率接近 0%

02 方法

Diffusion Policy 将策略参数化为条件去噪扩散过程:给定最近 To 步观测 Ot, 从高斯噪声出发,经过 K 步去噪(学习动作分布的分数函数梯度),输出 Ta 步动作序列, 再通过 receding-horizon control 执行其中前 Ta 步并滑窗更新。 论文提供两种网络骨干:CNN-based(DP-C)Transformer-based(DP-T)

Diffusion Policy Overview
图 2:Diffusion Policy 整体框架。 (a) 通用公式:To 步观测作为条件,输出 Ta 步动作; (b) CNN 变体:以 FiLM 将观测特征注入每层卷积; (c) Transformer 变体:观测 embedding 通过 multi-head cross-attention 与动作 token 交互, 有效缓解过平滑(over-smoothing)问题。

去噪扩散过程

训练时对动作加噪,学习预测噪声(或分数);推理时从 AK ∼ 𝒩(0, I) 出发, 迭代执行 K 步 DDPM 去噪(或 DDIM 加速推理)得到动作序列 A0。 关键优势:能量函数无需显式定义,分布覆盖度由扩散过程天然保证,可表达任意复杂的多模态分布。

Receding-Horizon Control

每次推理预测未来 Ta 步动作,实际执行前 Ta 步, 再以滑窗获取新观测、重新推理。这一机制在保持时序一致性(trajectory coherence)的同时 保留闭环响应能力。论文消融实验表明 action horizon 的选择对性能影响显著。

视觉条件输入

观测 Ot(RGB 图像或状态向量)仅作为条件输入去噪网络, 而非被去噪的对象,从而保持动作空间扩散的简洁性。 CNN 变体用 FiLM conditioning;Transformer 变体用 cross-attention。

多模态行为建模

扩散模型天然支持多峰(multimodal)分布:同一观测下策略可采样出截然不同但各自合理的动作轨迹, 且每次 rollout 内部保持一致性,不会在执行中途切换模式。

Multimodal behavior
图 3:多模态行为示例(Push-T)。 同一起始状态下,末端执行器(蓝色)既可绕左侧推块,也可绕右侧推块。 Diffusion Policy 学到了两种模式,且在单次 rollout 内只选择其中一种执行, 而不会在中途"切换"——这是分数匹配扩散过程的本质优势。

03 实验

实验覆盖 4 个基准(Robomimic 仿真、Push-T 仿真、真实 Push-T、多个真实操作任务), 基线包括 BC、LSTM-GMM、IBC、BET。指标为任务成功率(sim)和 IoU / 成功率(real Push-T)。 DP-C = CNN-based Diffusion Policy,DP-T = Transformer-based Diffusion Policy。

Robomimic 仿真基准(State Policy,最大成功率 / 最后 10 checkpoint 均值)

方法LiftCanSquareTransportToolHangPush-T
LSTM-GMM1.00/0.961.00/0.931.00/0.911.00/0.810.95/0.730.86/0.59
IBC0.79/0.410.15/0.020.00/0.000.01/0.010.00/0.000.00/0.00
BET1.00/0.961.00/0.991.00/0.891.00/0.900.76/0.520.68/0.43
DP-C(ours)1.00/0.981.00/0.971.00/0.961.00/0.961.00/0.930.97/0.82
DP-T(ours)1.00/1.001.00/1.001.00/1.001.00/0.941.00/0.890.95/0.81

Robomimic 仿真基准(Visual Policy,最大/均值)

方法LiftCanSquareTransportToolHangPush-T
LSTM-GMM1.00/0.961.00/0.951.00/0.880.98/0.900.82/0.590.64/0.38
IBC0.94/0.730.39/0.050.08/0.010.00/0.000.03/0.000.00/0.00
DP-C(ours)1.00/1.001.00/1.001.00/0.971.00/0.960.98/0.920.98/0.84
DP-T(ours)1.00/1.001.00/0.991.00/0.981.00/0.981.00/0.900.94/0.80

真实 Push-T 对比(20 次试验)

方法IoU成功率时长(秒)
人类示范0.841.0020.3
IBC (pos)0.140.0056.3
IBC (vel)0.190.0041.6
LSTM-GMM (pos)0.240.2047.3
LSTM-GMM (vel)0.250.1051.7
DP (R3M)0.530.6557.5
DP (ImgNet)0.240.1555.8
DP E2E Trans(ours)0.800.9522.9
DP E2E CNN(ours)0.660.8031.7

真实复杂操作任务(均采用 E2E Diffusion Policy)

任务成功率试验次数示范数
Mug Flipping(6DoF 抓取+翻转杯子)90%20
Sauce Pouring(酱料倒浇披萨)79%
Sauce Spreading(酱料涂抹)100%
双臂 Egg Beater(打蛋器操作)55%20210
双臂 Mat Unrolling(展开垫子)75%20162
双臂 Shirt Folding(折叠衬衫)75%20284
Real Push-T results
图 4:真实 Push-T 实验对比。 各列分别展示关键时刻的动作轨迹,最后一列为末态均值图像。 DP (E2E Trans) 达到 IoU 0.80、成功率 95%,接近人类示范水平(IoU 0.84), 而 IBC 在所有变体上成功率均为 0%。

消融实验

Ablation study
图 5:消融实验。 左图:action horizon(动作预测步长)存在最优区间——太短则时序一致性差,太长则响应性下降。 右图:Position control 相比 velocity control 使 Diffusion Policy 对延迟更鲁棒, 而传统方法(BCRNN、BET)切换到 position control 反而性能下降。

训练稳定性方面,论文专门与 IBC 对比(Figure 6):IBC 的 evaluation success rate 剧烈震荡, 即便训练 loss 单调下降也无法获得稳定收敛的策略;Diffusion Policy 则展现出平稳的训练曲线, checkpoint 选择不敏感。这一特性在实际应用中尤为重要。

04 局限性

注:以下局限性混合了论文明确陈述(stated)与从方法设计推断(inferred)的内容,已分别标注。
继承 Behavior Cloning 的数据依赖性 [stated]

Diffusion Policy 本质是一种 behavior cloning 方法,当示范数据不足或质量较差时, 性能会显著下降。论文指出其改进并不能突破 BC 范式的根本限制—— 若示范覆盖的状态空间有限,策略在分布外状态的泛化性仍无法保证。

推理延迟较高,不适合高频控制 [stated]

每次动作推理需要运行 K 步去噪(DDPM K=100,DDIM K=10~16), 推理延迟明显高于直接回归策略。论文承认这使得 Diffusion Policy 在需要高频(如 > 10 Hz)控制的任务上可能遇到瓶颈。 虽然 DDIM 加速推理可缓解此问题,但代价是生成质量可能略有下降。

Transformer 变体超参数敏感 [stated/inferred]

DP-T(Transformer-based)在多数任务上性能优异,但论文指出其对超参数(如 action horizon、 observation horizon)的选择较为敏感,需要细致调优。 此外,Transformer 变体的显存占用和训练时间也更高(inferred from architecture scale)。

双臂复杂任务成功率仍有差距 [inferred]

在双臂操作任务(Egg Beater 55%、Mat Unrolling 75%、Shirt Folding 75%)中, 成功率相比单臂任务明显偏低。这部分源于任务本身的复杂性(多步骤、双臂协调、 接触点丰富),也暗示当前方法在长时程、高接触任务中仍有较大提升空间(inferred)。