强化学习 · 扩散策略 · 机器人操控

LP-DS: 拉格朗日扰动扩散引导

Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies
Hikmet Simsir & Ozgur S. Oguz  ·  arXiv 2606.01151 (2026)

LP-DS 提出了一种轻量级在线适应方法,通过在冻结生成策略的潜在噪声空间中学习一个状态条件残差扰动来提升性能。 该方法使用拉格朗日信任域约束(Lagrangian trust-region)防止潜在查询偏离解码器训练分布, 在保持行为多样性的同时实现有效的策略改进,无需修改底层扩散或流匹配(flow-matching)解码器参数。

RoboMimic · OpenAI Gym · Adroit · LIBERO Franka 真实机器人验证 兼容 Diffusion & Flow-Matching arXiv 论文 项目主页
关键词扩散策略强化学习微调latent space perturbationLagrangian trust-regionbehavior cloningflow matching机器人操控生成策略噪声空间引导模式坍塌

01 动机

基于行为克隆(Behavior Cloning)的高容量生成策略在模仿学习中表现优异,但受限于演示数据覆盖范围不足以及分布偏移问题。 直接用强化学习(RL)微调大型生成解码器往往不稳定且样本效率低下。 已有的噪声空间引导方法 DSRL 虽能绕开解码器修改,却存在潜在查询漂移行为模式坍塌两大缺陷。

"LP-DS shifts Gaussian noise inputs via w = ε + Δθ(s) and optimizes Δθ with a Lagrangian trust-region objective that improves downstream value while limiting deviation from the latent prior."
玩具多目标导航实验
图1:玩具多目标导航(toy multi-goal navigation)。 四个对称高斯奖励峰定义四个等价目标模式(红点)。 冻结骨干策略可覆盖所有模式;DSRL 立即收缩到单一模式(模式坍塌); LP-DS 通过不同信任域大小 δ ∈ {0.01, 0.05, 0.1} 提供可控的多样性-性能权衡, δ=0.05 时既保持多模态覆盖又获得高质量轨迹,而 δ=0.1 时则发生模式坍塌。

核心挑战:DSRL 的两大失败模式

① 潜在查询偏离流形

DSRL 用无约束潜在策略替代预训练先验(prior),导致生成的噪声向量偏离解码器训练时所用的标准高斯分布支撑集, 引发不规则动作输出和性能退化。图2 清晰展示了这一现象:DSRL 预测出高幅值潜在查询, 与解码器不稳定行为高度相关。

② 行为多样性坍塌

无约束的潜在空间优化会将概率质量集中到少数高奖励区域, 骨干策略的多模态结构(multimodal structure)随之消失。 LP-DS 通过拉格朗日信任域机制显式约束扰动幅度,防止过度激进的模式集中。

LP-DS vs DSRL 对比
图2:弱约束噪声空间引导的失败模式(HalfCheetah-v2,3 seeds)。 DSRL 预测出高幅值潜在查询(右图),与离流形解码行为及性能退化相关; LP-DS 通过自适应信任域约束保持更小的扰动幅度,始终贴近骨干支撑集。
25%Walker2D 回报提升(对比最强 baseline)
33/40Franka 真实机器人拾放成功率(冻结 baseline 为 18/40)
17/20Franka 挂杯成功率(冻结 baseline 为 11/20)
δ=0.35多数实验中默认信任域目标值,对超参不敏感

02 方法

LP-DS 将冻结生成解码器 Φ: S × W → A 视为黑盒,仅学习一个轻量级状态条件残差网络 Δθ: S → W,在采样噪声上添加偏移 w = ε + Δθ(s), 然后通过拉格朗日松弛(Lagrangian relaxation)进行约束优化, 使得扰动在提升下游值函数的同时,保持对原始先验分布的接近。

4.1 残差扰动引导(Steering via Residual Perturbation)

设 Φ 为冻结的确定性生成解码器(扩散或流匹配模型),正常情况下从 ε ~ N(0, I) 采样噪声。 LP-DS 引入可学习扰动网络 Δθ,并按如下方式生成潜在查询:

w = ε + Δθ(s),其中 ε ~ N(0, I)

当 Δθ(s) = 0 时,策略精确恢复到原始行为克隆分布。 扰动网络是整个系统中唯一需要优化的组件,极大降低了计算成本。

4.2 拉格朗日信任域约束优化(Constrained Optimization via Lagrangian Relaxation)

无约束的潜在空间优化会导致 Δθ(s) 幅值无限增大,使 w 偏离标准高斯流形。 LP-DS 将学习问题表述为一个约束优化:在最大化期望 Q 值的同时, 将期望扰动幅值的平方控制在阈值 δ 以内(该约束来自 KL 散度的二阶近似):

maxθ E[QW(s, ε + Δθ(s))]   s.t.   E[‖Δθ(s)‖²] ≤ δ

通过引入拉格朗日乘子 α ≥ 0,形成如下拉格朗日函数,并交替更新 θ(梯度上升)和 α(投影对偶梯度上升):

L(θ, α) = E[QW(s, w) − α(‖Δθ(s)‖² − δ)]

当扰动超出信任域时 α 自动增大,强迫 actor 优先满足先验约束;当扰动较小时 α 下降,允许更激进的引导。 这一自适应正则化机制是 LP-DS 区别于 DSRL 的核心所在。

4.3 双重 Critic 架构

LP-DS 维护两个 critic:动作空间 critic QA(通过 TD 误差更新)和 潜在噪声空间 critic QW(通过蒸馏 QA 更新)。 actor 的梯度直接作用在潜在空间 critic 上,避免了对高容量解码器进行反向传播的计算开销。 整个在线训练流程见 Algorithm 1。

各基准域综合对比结果
图3:各域基准对比结果(6 random seeds,均值 ± 1 标准差)。 上行:RoboMimic 操控成功率;第二行:OpenAI Gym 运动回报; 第三行:Adroit 灵巧手操控成功率;第四行:Adroit 回报。 LP-DS 在大多数环境中优于 DSRL、DPPO、IDQL 和 DQL 等 baseline。

03 实验

在 RoboMimic 操控、OpenAI Gym 运动控制、Adroit 灵巧手操控三大基准上, 以及 LIBERO(使用大型视觉-语言-动作模型 π₀ 骨干)和 Franka 真实机器人部署中, LP-DS 全面评估了方法的有效性、泛化性和行为多样性保持能力。

5.1 主要基准结果

环境/基准最强 BaselineLP-DS提升
Walker2D-v2(回报) ~4000 ~5000 ~25%
RoboMimic Square(成功率) DSRL/DPPO 最高(快速收敛) 精度敏感任务优势显著
Adroit 灵巧操控 各 baseline 整体最强 成功率与回报均领先
LIBERO-90(VLA backbone π₀) 冻结 π₀ 显著提升 大型 Transformer 骨干可扩展
Franka 拾放(物理机器人) 18/40(冻结骨干) 33/40 +83% 成功次数
Franka 挂杯(物理机器人) 11/20(冻结骨干) 17/20 +55% 成功次数
Franka 真实机器人任务
图9:Franka 真实机器人任务。 左:空间拾放任务,在 2×4 网格(40 个位置)上评估; 右:挂杯任务,机器人需抓住杯子并将杯柄对准木架插入。 LP-DS 在仿真中进行潜在空间 RL 适应,并将所得的引导策略直接迁移至物理机器人执行。

5.2 行为多样性分析

通过 Kozachenko–Leonenko k-NN 动作熵估计器,LP-DS 在在线适应过程中始终保持比 DSRL 更高的动作空间熵, 同时成功率也更高。噪声空间引导方法(LP-DS 和 DSRL)相对冻结骨干均会降低熵, 这是将概率质量集中于高价值噪声区域的固有代价;但 LP-DS 的信任域约束有效减缓了这一过程。 DPPO 直接在动作空间微调,因此熵变化幅度最小,但整体性能通常不及 LP-DS。

动作熵对比
图5:在线适应期间的动作熵估计(Adroit Pen,3 seeds)。 LP-DS 在整个训练过程中保持比 DSRL 更高的动作熵,印证了拉格朗日信任域机制能有效缓解过早的模式坍塌。 DPPO 熵最高但成功率通常低于 LP-DS。

5.3 消融实验与超参灵敏度

在 Adroit Pen 的消融实验中:

对信任域目标 δ 的扫描实验(Hopper、Walker2d、RoboMimic Square、Adroit Relocate)表明: δ > 0.1 均能取得强劲性能;0.35、0.5、0.66 等邻近值表现相近。 δ 主要充当粗粒度行为旋钮而非需要精细调节的脆弱超参数。

Avoiding 环境成功率与目标覆盖
图:Avoiding 环境中的多路径多样性。 LP-DS 在不同信任域大小 δ 下展现出可控的多样性—专业化权衡。 小信任域(δ=0.01)保留更广的障碍物绕行路径集合;较大信任域(δ=0.3)使策略集中于较窄的成功路线。 DSRL 则坍塌到单一主导路径。

5.4 跨架构鲁棒性

在 Hopper-v2 上进行的扩散 vs. 流匹配骨干对比实验表明,LP-DS 在两种骨干架构下取得相当的最终性能, 证明残差扰动和信任域框架并不依赖于特定的去噪扩散链,可泛化到连续时间流模型。 在 LIBERO-90 基准上使用大型 π₀ VLA 骨干同样获得显著性能提升, 验证了 LP-DS 可扩展至大型 Transformer 基础模型。

04 局限性

说明:本文未设置独立的"局限性"章节,但在结论(Section 6)和 Impact Statement 中有明确论述。 以下条目标注来源:明确陈述(stated)推断(inferred)
信任域目标 δ 仍需人工选择 (stated + inferred)

论文指出 δ > 0.1 时方法较为鲁棒,且 0.35、0.5、0.66 等值效果相近, 但对于不同任务和骨干架构,最优 δ 仍需在一定范围内选取。 结论中将"自适应信任域目标"(adaptive trust-region targets)列为未来工作方向。

噪声空间引导固有地降低行为熵 (stated)

论文明确指出:"Noise-space steering methods (LP-DS, DSRL) exhibit an inherent reduction in entropy relative to the backbone." 虽然 LP-DS 比 DSRL 保留了更多多样性,但相比直接在动作空间微调(DPPO), 其动作空间熵仍会随训练进行而下降,这是潜在空间模式选择的内在代价。

依赖仿真适应再迁移的 sim-to-real 流程 (inferred)

真实机器人实验(Section 5.7)采用"仿真中进行潜在空间 RL 适应,再迁移到物理机器人"的流程。 这意味着方法在一定程度上依赖高质量的任务匹配仿真器; 在仿真-真实差距(sim-to-real gap)较大的场景中,其性能有多大程度可维持尚不清楚。

部分可观测与大规模 VLA 场景的验证有限 (stated)

论文结论明确将"部分可观测环境"(partially observable)和"大规模视觉-语言-动作设置"(large-scale VLA settings) 列为未来工作方向,暗示当前验证覆盖范围有限,尤其是在需要长时间记忆或复杂感知的场景中。

双 Critic 引入额外计算开销 (inferred)

LP-DS 维护动作空间 critic QA 和潜在空间 critic QW 共两个独立 critic, 以及独立的 actor 和拉格朗日乘子 α 的更新。相比仅有单个 critic 的 DSRL, 每步的计算和存储成本更高,在大规模 VLA 骨干上的实际开销尚未量化报告。