cs.RO · cs.LG · arXiv 2025

不确定性免费获得:基于 Diffusion Model 的人机协作(Human-in-the-Loop)策略

Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models
Zhanpeng He  ·  Yifeng Cao  ·  Matei Ciocarlie  |  2025 · arXiv:2503.01876

本文提出利用扩散策略(diffusion policy)生成过程中固有的去噪不确定性,免训练地识别机器人何时需要请求人工干预, 从而构建高效的半自主 Human-in-the-Loop(HitL)系统,同时将干预数据用于策略微调以持续改善自主性能。

机器人操控 Diffusion Policy Human-in-the-Loop 不确定性估计 📄 arXiv:2503.01876 PDF 原文
关键词Human-in-the-Loopdiffusion policy不确定性估计机器人操控去噪不确定性半自主策略策略微调分布偏移denoising uncertaintyintervention request

01 动机

在实际机器人部署中,人工持续监控代价高昂、难以规模化。现有 HitL 方法要求人工标注干预时机,或训练额外分类器, 成本高且泛化性差。本文发现:扩散模型的去噪过程本身就隐含了丰富的不确定性信号,无需任何额外监督即可驱动智能干预请求。

"We propose using denoising uncertainty as a metric for deciding when to request (human) expert assistance." ——无需在训练时引入人工标注,不确定性信号从扩散策略的生成过程中免费获得。
方法概览图
图 1:方法概览。 HitL 策略部署框架:机器人持续估计去噪不确定性(denoising uncertainty),当不确定性超过阈值时向人类操作员请求远程操控辅助(teleoperation), 所收集的干预数据进一步用于策略微调。不确定性度量无需额外训练,直接来自扩散策略的噪声预测过程。
≈8.3%真实机器人实验中需人工干预的时间步比例,即可达到 100% 成功率
47%HitL 微调后平均成功率提升幅度(相比基线)
8.0开抽屉任务所需最少干预步数(vs. ThriftyDAgger 的 17.2 步)
0 额外标注训练期间无需任何人工干预标注,不确定性"免费"获得

现有方法的不足

现有 HitL 机器人策略方法可分为两类:

02 方法

核心思路:在当前末端执行器位姿附近采样多个探针点,通过扩散策略的噪声预测网络(noise prediction network)得到对应的预测动作分布, 用高斯混合模型(GMM)拟合后计算模间散度与模内方差,合并为统一的不确定性度量。部署时若不确定性超过验证集第 95 百分位阈值,则触发人工干预请求。

方法示意图
图 2:模拟环境中的三类部署挑战。 (a) 分布偏移(Distribution shift):测试场景与训练分布不同; (b) 部分可观测性(Partial observability):遮挡导致关键观测缺失; (c) 动作多模性(Action multi-modality):同一状态下存在多个合理动作。 本文方法在三种场景中均能有效触发干预请求。

步骤一:采样探针点与去噪预测

在当前末端执行器位姿 xt 周围,以采样半径 r(实验中取 0.05 m)均匀采样 n 个探针位姿 {si}。 对每个探针点,从噪声初始化动作轨迹出发,运行扩散策略的去噪过程(仅推理,无梯度)得到预测动作向量:

atk-1 = β(atk − γ · εθ(ot, atk, k) + N(0, σ²I))

其中 εθ 为已训练的噪声预测网络,ot 为当前观测。所有探针点的去噪方向向量构成集合 Vts

步骤二:GMM 拟合与不确定性计算

对去噪方向向量集 Vts 拟合高斯混合模型(GMM),每个模代表一种可能的动作意图。不确定性由两部分组成:

Uncertainty(ot) = D(Vts) + α · Varg(Vts)

其中 α 为缩放系数(实验中取较小值 0.01–0.1,以强调模间散度的贡献)。

步骤三:HitL 部署与阈值触发

阈值取验证集(held-out validation set)不确定性分布的 第 95 百分位数,无需人工调参。 当实时不确定性超过阈值时,机器人暂停自主执行并请求人工远程操控(teleoperation)若干步,随后恢复自主。 干预数据实时收集,用于后续微调。

不确定性可视化
图 3:预测不确定性的定性可视化。 颜色越亮(lighter)代表不确定性越高。可以看出,在机器人遭遇分布偏移或动作歧义的区域,本方法的不确定性估计显著升高, 符合直觉——模型在这些位置"更不确定"应该执行什么动作。

步骤四:干预数据微调(Fine-tuning)

收集到的人工干预轨迹可直接用于对扩散策略进行微调。实验表明,与收集完整轨迹相比, HitL 干预数据更具针对性,以更少数据量实现更好的性能提升,且不产生灾难性遗忘(catastrophic forgetting)。

03 实验

实验在模拟环境(三个操控任务,三类挑战场景)和真实机器人(四个任务)上进行。 评估指标:达到 100% 成功率所需的平均人工干预步数(越少越好);微调后自主成功率。 基线包括:Diff-DAgger、ThriftyDAgger、HULA-offline、Sentinel、Output Variance。

模拟实验:达到 100% 成功率所需干预步数(Table I,越少越好)

任务 Diff-DAgger ThriftyDAgger HULA-offline Sentinel 本文方法
Lift-sim(分布偏移) 30.2 ± 1.3 16.9 ± 4.5
Cup-stacking(部分可观测) 54.0 ± 16.3 5.4 ± 1.0
Open-drawer(动作多模) 17.2 ± 8.9 8.0 ± 1.9

真实机器人实验(Table II)

在四个真实操控任务上,本文方法仅需约 8.3% 的时间步进行人工干预,即可实现 100% 任务成功率; 而全轨迹人工操控基线需要 80.0–111.9 个干预步数。本方法在所有场景下均优于 Sentinel 和 Output Variance 基线。

真实机器人实验
图 5:真实机器人实验设置与结果。 设计了四个任务以模拟三类挑战(分布偏移、部分可观测、动作多模性)。本文方法在全部真实任务中以极少干预步数实现 100% 成功率, 显著优于所有基线方法。

微调实验(Table IV,Lift-real 任务)

使用 HitL 收集的 80 个数据样本对策略微调后,自主成功率达到 0.63; 而使用完整轨迹微调(132 个样本)仅达到 0.31。平均来看,HitL 微调带来 47% 的成功率提升, 且数据量更少、针对性更强。

微调结果
图 4:微调效果分析。 左图:Lift-sim 任务中,不同干预步数下微调后的平均成功率。HitL 方法以更少步数达到更高成功率。 右图:不确定性阈值选择的敏感性分析,第 95 百分位阈值在多数任务中表现稳定。

消融实验(Ablations)

采样半径(Table V):最优半径为 0.05 m,干预步数 20 步,成功率 0.63; 过小(0.01 m)成功率降至 0.46,过大(0.1 m)降至 0.53。
缩放系数 α(Table VI):α = 0.01–0.1(强调模间散度)时效果最优, Cup-stacking 微调仅需 5 步干预;α = 0.5 时需 7 步。
阈值选择:95 百分位阈值在多类任务中均能稳定地以较低干预量维持 100% 成功率,无需逐任务调整。

与基线对比定性结果
图 7:与 Sentinel 和 Output Variance 基线的定性对比。 (a) Sentinel 方法在错误时机触发干预,干预效率低;(b) Output Variance 方法对不确定性估计不准确; (c) 本文方法在真正需要帮助时精准触发,干预更少、更有效。

04 局限性

说明:论文未设立独立的"Limitations"章节。以下各点综合论文正文中的隐含假设整理, 均标注为 推断(inferred),并在可能的情况下注明论文原文依据。
控制空间限制(推断):仅适用于任务空间绝对末端位姿控制

本方法在探针采样时假设动作空间为末端执行器的绝对位姿(absolute end-effector poses)。 对于关节空间控制、速度控制或其他参数化形式的策略,探针采样策略需重新设计,方法的直接适用性受限。

阈值依赖验证集(推断):需要代表性验证数据

不确定性阈值取验证集的第 95 百分位。若验证集分布与实际部署环境差异过大,阈值可能失准,导致干预过多或过少。 论文中所有实验的验证集均来自与训练分布相近的场景。

部分可观测场景的固有局限(论文明确指出)

论文指出,Case 2(部分可观测性)"is the most difficult, since correct decision making is impossible without changing the available observation"。 即使人工干预也无法解决传感器本身的信息缺失,方法对此类场景的帮助有限。

假设人工干预总是有效(推断)

方法假设人工操作员的干预"effective for task completion",未对操作员技能水平或干预质量进行建模。 若操作员本身表现不佳,收集到的干预数据可能对微调有负面影响。

真实机器人实验规模较小(推断)

真实机器人实验仅在四个相对简单的操控任务上进行,任务复杂度和场景多样性有限。 方法在长时程任务、高自由度机器人或非结构化环境中的泛化性尚未验证。