利用不确定性估计加速残差强化学习

01 动机

Residual RL 是将预训练策略与强化学习结合的流行范式——只训练一个输出"修正量"的小策略，而不是重新训练整个网络。但两个关键瓶颈制约了其实用性：

问题一：低效探索

残差策略在整个状态空间均匀随机探索，而在基础策略已经表现良好的区域浪费大量样本。在稀疏奖励环境下，这一问题尤为突出。

问题二：仅支持确定性策略

现有 off-policy Residual RL 方法（如 TD3+BC、SAC）假设基础策略是确定性的。对于 GMM 或 Diffusion Policy 等随机基础策略，动作空间的随机性使 Q 函数训练失效。

"Residual RL is a popular approach for adapting pretrained policies by learning a lightweight residual policy that provides corrective actions. While Residual RL is more sample-efficient than finetuning the entire base policy, existing methods struggle with sparse rewards and are designed for deterministic base policies."

Teaser: 不确定性引导的残差策略探索 — **核心思路概览。** 本文提出两项改进以加速 Residual RL： ①使用不确定性估计将探索约束在基础策略置信度低的区域； ②修改 off-policy critic，使其学习基础动作与残差动作组合后的 Q 函数，从而支持随机基础策略。

6测试任务数
（Robosuite + D4RL + 真实机器人）

4+对比基线方法
（DPPO, IBRL, Policy Decorator, 标准 Residual RL）

2不确定性度量
（distance-to-data, ensemble variance）

sim→real零样本迁移
保留近乎全部仿真性能

测试任务可视化 — **测试任务。** 实验在 Robosuite 的 Lift、Can、Square 三个机械臂操纵任务以及 D4RL 的 Franka Kitchen 任务上展开。任务难度依次递增，奖励信号稀疏。

02 方法

本文的核心思路是让残差策略"知道什么时候该出手"：只在基础策略不确定的状态下叠加修正量，其余情况直接沿用基础策略的输出。同时，通过改造 critic 的输入，使整个框架可以处理随机（非确定性）基础策略。

改进一：不确定性引导的探索（Uncertainty-Guided Exploration）

在每个时间步，先用不确定性估计量 uncertainty(s) 与阈值 τ 比较。若不确定性低（基础策略置信）则直接执行基础策略动作；否则叠加残差修正量：

a_taken = { a_b if uncertainty(s) < τ
{ a_b + a_r otherwise

阈值 τ 随训练步数指数衰减，使策略逐渐从"基础策略主导"过渡到"残差策略主导"：

τ = U · e^{−step / decay_rate}

论文比较了两种不确定性度量：

距离数据集（distance-to-data）：当前状态到训练数据集中最近样本的 L2 距离。适用于 GMM 等策略，但在高维图像空间中可靠性下降。
uncertainty_d(s) = min_d∈D √( Σ (d_i − s_i)² )
集成方差（ensemble variance）：多个基础策略副本在同一状态下输出动作的方差。当训练数据含随机游走数据时表现更稳健。
uncertainty_e(s) = (1/N) Σ (π_b(a|s) − (1/N) Σ π_i(a|s))²

改进二：支持随机基础策略的非对称 Actor-Critic

对于 GMM 或 Diffusion Policy 等随机基础策略，每次采样的动作 a_b 不同。若 critic 仅观测残差动作 a_r，则 Q 函数估计偏差严重。本文的解决方案是让 critic 观测完整组合动作（a_b + a_r），而 actor 只预测残差修正量 a_r，形成非对称结构：

Actor 输入：状态 s → 输出：残差动作 a_r
Critic 输入：状态 s + 完整动作 a_b + a_r → 输出：Q 值

这样可以保证 Q 函数接收到随机基础动作的信息，同时保持"动作分离不变性"（action-split invariance），确保优化目标合理。

确定性基础策略下完整/分离动作的 Q 学习比较 — **完整动作 vs 分离动作。** 对于确定性基础策略，两种 critic 输入方式效果相当；但对于随机基础策略，只有学习完整组合动作的 Q 函数才能正常收敛。图中结果来自 D4RL Franka Kitchen 任务。

03 实验

在 Robosuite（Lift、Can、Square）、D4RL Franka Kitchen（Complete、Mixed、Partial）、图像输入 Can 任务以及真实机器人 Can 任务上评估。所有结果均带 95% 置信区间。基线方法包括：DPPO（Diffusion Policy Policy Optimization）、IBRL（Imitation Bootstrapped RL）、IBRL-RPL、Policy Decorator（均匀探索调度）以及标准 Residual RL。

GMM 基础策略 — Robosuite 任务

GMM 基础策略实验结果 — **GMM 策略结果（图 3）。** "Our method is able to outperform all other baselines in all tasks." 在 Lift、Can、Square 三个任务上，本文方法在样本效率和最终成功率上均优于所有基线方法。误差条表示 95% 置信区间。

Diffusion 基础策略 — Kitchen + Robosuite 任务

Diffusion 基础策略实验结果 — **Diffusion 策略结果（图 4）。** "Our method is able to outperform all baselines for Kitchen Complete and Can task, and has comparable performance for Square Task." 在 Kitchen Complete 和 Can 任务上以更高成功率超越所有基线；Square 任务上表现持平。

图像输入的 Can 任务

基于图像观测的 Can 任务结果 — **图像输入结果（图 6）。** 在仅凭 RGB 图像作为观测的 Can 任务上，使用 ensemble variance 度量的方法展现出强劲性能，避免了训练早期频繁发生的意外碰撞。 distance-to-data 度量在高维图像空间下可靠性下降，ensemble 方法更为稳健。

真实机器人实验（Zero-Shot Sim-to-Real）

真实机器人实验结果 — **真实机器人部署（图 8）。** 在真实机器人 Can 抓取任务上评估四种策略，每种策略在接触（contact）、抓取（grasp）、放置（place）三个阶段各进行 10 次试验。残差策略在迁移到真实环境后"nearly all of their original performance in simulation"，验证了零样本 sim-to-real 迁移的可行性。

消融研究

阈值衰减策略消融 — **衰减策略消融（图 9）。** 比较了指数衰减、线性衰减和固定阈值三种策略。 "Exponential decay has the most stable performance out of the three."

**衰减速率消融（图 10）。** 衰减速率在 300k–500k 步范围内表现稳健。 "Lower rates resulted in aggressive exploration, causing performance dips that were hard to recover from, while higher rates slowed the convergence."

Kitchen 环境中不确定性度量比较

Kitchen 任务不确定性度量比较 — **不同不确定性度量在 Kitchen 任务中的比较（图 11）。** 在 Kitchen Partial 和 Kitchen Mixed 上，训练数据包含随机游走（random play）数据，导致 distance-to-data 度量失效（基础策略即使在不擅长的状态也"自信"）。 Ensemble variance 在这些场景下能够提供更可靠的不确定性估计，取得了更好的性能。

任务 / 场景	主要基线方法	本文方法表现	备注
Robosuite Lift / Can / Square（GMM）	IBRL, Policy Decorator	超越全部基线	样本效率与最终成功率均更优
Kitchen Complete（Diffusion）	DPPO, Policy Decorator	更高成功率	支持随机策略的关键场景
Can 任务（Diffusion）	DPPO, Policy Decorator	更高成功率	—
Square 任务（Diffusion）	Policy Decorator, DPPO	性能持平	最难任务，无显著差距
Kitchen Partial / Mixed	标准 Residual RL	ensemble 有提升；distance 失效	含随机游走数据时 distance 不可靠
真实机器人 Can（Zero-Shot）	仿真策略基准	保留近乎全部仿真性能	无真实环境额外训练

04 局限性

说明： 以下第一条为作者在论文中明确陈述的局限性（stated）；其余为根据方法设计推断（inferred）。

不确定性度量假设可能不成立 （作者明确指出）

本文的核心假设是"基础策略置信的地方，它的动作也是正确的"。但当训练数据中包含随机游走（random play）数据时，该假设失效——基础策略可能在许多状态下都显示出"低不确定性"但实际上动作质量差。作者明确指出："it would also benefit from a more robust epistemic uncertainty metric." 这导致 distance-to-data 在 Kitchen Mixed 和 Kitchen Partial 等任务上失效，ensemble 方法虽然改善了情况，但并非完美解决方案。

高维观测下 distance-to-data 可靠性下降 （作者明确指出）

在图像输入场景中，distance-to-data 度量在高维像素空间中变得不可靠。论文图像实验中已观测到这一问题，并改用 ensemble variance 方法。对于更复杂的视觉观测场景（如多物体、复杂背景），不确定性估计的鲁棒性需要进一步研究。

尚未验证对大型基础模型的适用性 （作者指出，推断）

作者指出："We believe that, with reliable uncertainty metrics, our approach could also be applied to larger models including robot foundation models." 然而目前实验仅限于 GMM 和 Diffusion Policy 等相对小型的基础策略，尚未在大型视觉-语言-动作模型（如 RT-2、OpenVLA 等）上验证。

超参数（衰减速率）需要任务相关调整 （从消融结果推断）

尽管实验表明衰减速率在 300k–500k 步范围内较为稳健，但极低的衰减速率会导致过激探索，而极高的衰减速率则会拖慢收敛。在不同任务难度和数据集规模下，最优超参数仍需一定程度的人工调整。