Robotics · Reinforcement Learning · arXiv 2506.17564

利用不确定性估计加速残差强化学习

Accelerating Residual Reinforcement Learning with Uncertainty Estimation
Lakshita Dodeja, Karl Schmeckpeper, Shivam Vats, Thomas Weng, Mingxi Jia, George Konidaris, Stefanie Tellex  ·  Brown University & Robotics and AI Institute

残差强化学习(Residual RL)通过在预训练策略之上叠加一个轻量级"残差策略"来修正动作,相比全量微调具有更高的样本效率。然而现有方法在稀疏奖励下表现欠佳,且只适用于确定性基础策略。本文提出两项改进:①利用基础策略的不确定性估计引导残差策略专注于探索低置信区域;②通过非对称 actor-critic 架构支持 GMM 及 Diffusion 等随机基础策略的 off-policy 学习。

arXiv 2506.17564v2 March 2026 Robosuite · D4RL · Real Robot 论文链接 →
关键词残差强化学习residual policy不确定性估计uncertainty-guided exploration随机基础策略diffusion policyasymmetric actor-critic机器人操纵sim-to-real transfersample efficiency

01 动机

Residual RL 是将预训练策略与强化学习结合的流行范式——只训练一个输出"修正量"的小策略,而不是重新训练整个网络。但两个关键瓶颈制约了其实用性:

问题一:低效探索

残差策略在整个状态空间均匀随机探索,而在基础策略已经表现良好的区域浪费大量样本。在稀疏奖励环境下,这一问题尤为突出。

问题二:仅支持确定性策略

现有 off-policy Residual RL 方法(如 TD3+BC、SAC)假设基础策略是确定性的。对于 GMM 或 Diffusion Policy 等随机基础策略,动作空间的随机性使 Q 函数训练失效。

"Residual RL is a popular approach for adapting pretrained policies by learning a lightweight residual policy that provides corrective actions. While Residual RL is more sample-efficient than finetuning the entire base policy, existing methods struggle with sparse rewards and are designed for deterministic base policies."
Teaser: 不确定性引导的残差策略探索
核心思路概览。 本文提出两项改进以加速 Residual RL: ①使用不确定性估计将探索约束在基础策略置信度低的区域; ②修改 off-policy critic,使其学习基础动作与残差动作组合后的 Q 函数,从而支持随机基础策略。
6测试任务数
(Robosuite + D4RL + 真实机器人)
4+对比基线方法
(DPPO, IBRL, Policy Decorator, 标准 Residual RL)
2不确定性度量
(distance-to-data, ensemble variance)
sim→real零样本迁移
保留近乎全部仿真性能
测试任务可视化
测试任务。 实验在 Robosuite 的 Lift、Can、Square 三个机械臂操纵任务以及 D4RL 的 Franka Kitchen 任务上展开。 任务难度依次递增,奖励信号稀疏。

02 方法

本文的核心思路是让残差策略"知道什么时候该出手":只在基础策略不确定的状态下叠加修正量,其余情况直接沿用基础策略的输出。同时,通过改造 critic 的输入,使整个框架可以处理随机(非确定性)基础策略。

改进一:不确定性引导的探索(Uncertainty-Guided Exploration)

在每个时间步,先用不确定性估计量 uncertainty(s) 与阈值 τ 比较。若不确定性低(基础策略置信)则直接执行基础策略动作;否则叠加残差修正量:

a_taken = { a_b if uncertainty(s) < τ
            { a_b + a_r otherwise

阈值 τ 随训练步数指数衰减,使策略逐渐从"基础策略主导"过渡到"残差策略主导":

τ = U · e−step / decay_rate

论文比较了两种不确定性度量:

改进二:支持随机基础策略的非对称 Actor-Critic

对于 GMM 或 Diffusion Policy 等随机基础策略,每次采样的动作 a_b 不同。若 critic 仅观测残差动作 a_r,则 Q 函数估计偏差严重。本文的解决方案是让 critic 观测完整组合动作a_b + a_r),而 actor 只预测残差修正量 a_r,形成非对称结构:

这样可以保证 Q 函数接收到随机基础动作的信息,同时保持"动作分离不变性"(action-split invariance),确保优化目标合理。

确定性基础策略下完整/分离动作的 Q 学习比较
完整动作 vs 分离动作。 对于确定性基础策略,两种 critic 输入方式效果相当;但对于随机基础策略,只有学习完整组合动作的 Q 函数才能正常收敛。 图中结果来自 D4RL Franka Kitchen 任务。

03 实验

在 Robosuite(Lift、Can、Square)、D4RL Franka Kitchen(Complete、Mixed、Partial)、图像输入 Can 任务以及真实机器人 Can 任务上评估。所有结果均带 95% 置信区间。 基线方法包括:DPPO(Diffusion Policy Policy Optimization)、IBRL(Imitation Bootstrapped RL)、IBRL-RPLPolicy Decorator(均匀探索调度)以及标准 Residual RL。

GMM 基础策略 — Robosuite 任务

GMM 基础策略实验结果
GMM 策略结果(图 3)。 "Our method is able to outperform all other baselines in all tasks." 在 Lift、Can、Square 三个任务上,本文方法在样本效率和最终成功率上均优于所有基线方法。误差条表示 95% 置信区间。

Diffusion 基础策略 — Kitchen + Robosuite 任务

Diffusion 基础策略实验结果
Diffusion 策略结果(图 4)。 "Our method is able to outperform all baselines for Kitchen Complete and Can task, and has comparable performance for Square Task." 在 Kitchen Complete 和 Can 任务上以更高成功率超越所有基线;Square 任务上表现持平。

图像输入的 Can 任务

基于图像观测的 Can 任务结果
图像输入结果(图 6)。 在仅凭 RGB 图像作为观测的 Can 任务上,使用 ensemble variance 度量的方法展现出强劲性能,避免了训练早期频繁发生的意外碰撞。 distance-to-data 度量在高维图像空间下可靠性下降,ensemble 方法更为稳健。

真实机器人实验(Zero-Shot Sim-to-Real)

真实机器人实验结果
真实机器人部署(图 8)。 在真实机器人 Can 抓取任务上评估四种策略,每种策略在接触(contact)、抓取(grasp)、放置(place)三个阶段各进行 10 次试验。 残差策略在迁移到真实环境后"nearly all of their original performance in simulation",验证了零样本 sim-to-real 迁移的可行性。

消融研究

阈值衰减策略消融
衰减策略消融(图 9)。 比较了指数衰减、线性衰减和固定阈值三种策略。 "Exponential decay has the most stable performance out of the three."
衰减速率消融
衰减速率消融(图 10)。 衰减速率在 300k–500k 步范围内表现稳健。 "Lower rates resulted in aggressive exploration, causing performance dips that were hard to recover from, while higher rates slowed the convergence."

Kitchen 环境中不确定性度量比较

Kitchen 任务不确定性度量比较
不同不确定性度量在 Kitchen 任务中的比较(图 11)。 在 Kitchen Partial 和 Kitchen Mixed 上,训练数据包含随机游走(random play)数据,导致 distance-to-data 度量失效(基础策略即使在不擅长的状态也"自信")。 Ensemble variance 在这些场景下能够提供更可靠的不确定性估计,取得了更好的性能。
任务 / 场景 主要基线方法 本文方法表现 备注
Robosuite Lift / Can / Square(GMM) IBRL, Policy Decorator 超越全部基线 样本效率与最终成功率均更优
Kitchen Complete(Diffusion) DPPO, Policy Decorator 更高成功率 支持随机策略的关键场景
Can 任务(Diffusion) DPPO, Policy Decorator 更高成功率
Square 任务(Diffusion) Policy Decorator, DPPO 性能持平 最难任务,无显著差距
Kitchen Partial / Mixed 标准 Residual RL ensemble 有提升;distance 失效 含随机游走数据时 distance 不可靠
真实机器人 Can(Zero-Shot) 仿真策略基准 保留近乎全部仿真性能 无真实环境额外训练

04 局限性

说明: 以下第一条为作者在论文中明确陈述的局限性(stated);其余为根据方法设计推断(inferred)。
不确定性度量假设可能不成立 (作者明确指出)

本文的核心假设是"基础策略置信的地方,它的动作也是正确的"。但当训练数据中包含随机游走(random play)数据时,该假设失效——基础策略可能在许多状态下都显示出"低不确定性"但实际上动作质量差。 作者明确指出:"it would also benefit from a more robust epistemic uncertainty metric." 这导致 distance-to-data 在 Kitchen Mixed 和 Kitchen Partial 等任务上失效,ensemble 方法虽然改善了情况,但并非完美解决方案。

高维观测下 distance-to-data 可靠性下降 (作者明确指出)

在图像输入场景中,distance-to-data 度量在高维像素空间中变得不可靠。论文图像实验中已观测到这一问题,并改用 ensemble variance 方法。 对于更复杂的视觉观测场景(如多物体、复杂背景),不确定性估计的鲁棒性需要进一步研究。

尚未验证对大型基础模型的适用性 (作者指出,推断)

作者指出:"We believe that, with reliable uncertainty metrics, our approach could also be applied to larger models including robot foundation models." 然而目前实验仅限于 GMM 和 Diffusion Policy 等相对小型的基础策略,尚未在大型视觉-语言-动作模型(如 RT-2、OpenVLA 等)上验证。

超参数(衰减速率)需要任务相关调整 (从消融结果推断)

尽管实验表明衰减速率在 300k–500k 步范围内较为稳健,但极低的衰减速率会导致过激探索,而极高的衰减速率则会拖慢收敛。在不同任务难度和数据集规模下,最优超参数仍需一定程度的人工调整。