LP-DS: 拉格朗日扰动扩散引导 — 生成策略的潜在空间强化学习

01 动机

基于行为克隆（Behavior Cloning）的高容量生成策略在模仿学习中表现优异，但受限于演示数据覆盖范围不足以及分布偏移问题。直接用强化学习（RL）微调大型生成解码器往往不稳定且样本效率低下。已有的噪声空间引导方法 DSRL 虽能绕开解码器修改，却存在潜在查询漂移和行为模式坍塌两大缺陷。

"LP-DS shifts Gaussian noise inputs via w = ε + Δ_θ(s) and optimizes Δ_θ with a Lagrangian trust-region objective that improves downstream value while limiting deviation from the latent prior."

玩具多目标导航实验 — **图1：玩具多目标导航（toy multi-goal navigation）。** 四个对称高斯奖励峰定义四个等价目标模式（红点）。冻结骨干策略可覆盖所有模式；DSRL 立即收缩到单一模式（模式坍塌）； LP-DS 通过不同信任域大小 δ ∈ {0.01, 0.05, 0.1} 提供**可控的多样性-性能权衡**， δ=0.05 时既保持多模态覆盖又获得高质量轨迹，而 δ=0.1 时则发生模式坍塌。

核心挑战：DSRL 的两大失败模式

① 潜在查询偏离流形

DSRL 用无约束潜在策略替代预训练先验（prior），导致生成的噪声向量偏离解码器训练时所用的标准高斯分布支撑集，引发不规则动作输出和性能退化。图2 清晰展示了这一现象：DSRL 预测出高幅值潜在查询，与解码器不稳定行为高度相关。

② 行为多样性坍塌

无约束的潜在空间优化会将概率质量集中到少数高奖励区域，骨干策略的多模态结构（multimodal structure）随之消失。 LP-DS 通过拉格朗日信任域机制显式约束扰动幅度，防止过度激进的模式集中。

LP-DS vs DSRL 对比 — **图2：弱约束噪声空间引导的失败模式（HalfCheetah-v2，3 seeds）。** DSRL 预测出高幅值潜在查询（右图），与离流形解码行为及性能退化相关； LP-DS 通过自适应信任域约束保持更小的扰动幅度，始终贴近骨干支撑集。

25%Walker2D 回报提升（对比最强 baseline）

33/40Franka 真实机器人拾放成功率（冻结 baseline 为 18/40）

17/20Franka 挂杯成功率（冻结 baseline 为 11/20）

δ=0.35多数实验中默认信任域目标值，对超参不敏感

02 方法

LP-DS 将冻结生成解码器 Φ: S × W → A 视为黑盒，仅学习一个轻量级状态条件残差网络 Δ_θ: S → W，在采样噪声上添加偏移 w = ε + Δ_θ(s)，然后通过拉格朗日松弛（Lagrangian relaxation）进行约束优化，使得扰动在提升下游值函数的同时，保持对原始先验分布的接近。

4.1 残差扰动引导（Steering via Residual Perturbation）

设 Φ 为冻结的确定性生成解码器（扩散或流匹配模型），正常情况下从 ε ~ N(0, I) 采样噪声。 LP-DS 引入可学习扰动网络 Δ_θ，并按如下方式生成潜在查询：

w = ε + Δ_θ(s)，其中 ε ~ N(0, I)

当 Δ_θ(s) = 0 时，策略精确恢复到原始行为克隆分布。扰动网络是整个系统中唯一需要优化的组件，极大降低了计算成本。

4.2 拉格朗日信任域约束优化（Constrained Optimization via Lagrangian Relaxation）

无约束的潜在空间优化会导致 Δ_θ(s) 幅值无限增大，使 w 偏离标准高斯流形。 LP-DS 将学习问题表述为一个约束优化：在最大化期望 Q 值的同时，将期望扰动幅值的平方控制在阈值 δ 以内（该约束来自 KL 散度的二阶近似）：

max_θ E[Q^W(s, ε + Δ_θ(s))] s.t. E[‖Δ_θ(s)‖²] ≤ δ

通过引入拉格朗日乘子 α ≥ 0，形成如下拉格朗日函数，并交替更新 θ（梯度上升）和 α（投影对偶梯度上升）：

L(θ, α) = E[Q^W(s, w) − α(‖Δ_θ(s)‖² − δ)]

当扰动超出信任域时 α 自动增大，强迫 actor 优先满足先验约束；当扰动较小时 α 下降，允许更激进的引导。这一自适应正则化机制是 LP-DS 区别于 DSRL 的核心所在。

4.3 双重 Critic 架构

LP-DS 维护两个 critic：动作空间 critic Q^A（通过 TD 误差更新）和潜在噪声空间 critic Q^W（通过蒸馏 Q^A 更新）。 actor 的梯度直接作用在潜在空间 critic 上，避免了对高容量解码器进行反向传播的计算开销。整个在线训练流程见 Algorithm 1。

各基准域综合对比结果 — **图3：各域基准对比结果（6 random seeds，均值 ± 1 标准差）。** 上行：RoboMimic 操控成功率；第二行：OpenAI Gym 运动回报；第三行：Adroit 灵巧手操控成功率；第四行：Adroit 回报。 LP-DS 在大多数环境中优于 DSRL、DPPO、IDQL 和 DQL 等 baseline。

03 实验

在 RoboMimic 操控、OpenAI Gym 运动控制、Adroit 灵巧手操控三大基准上，以及 LIBERO（使用大型视觉-语言-动作模型 π₀ 骨干）和 Franka 真实机器人部署中， LP-DS 全面评估了方法的有效性、泛化性和行为多样性保持能力。

5.1 主要基准结果

环境/基准	最强 Baseline	LP-DS	提升
Walker2D-v2（回报）	~4000	~5000	~25%
RoboMimic Square（成功率）	DSRL/DPPO	最高（快速收敛）	精度敏感任务优势显著
Adroit 灵巧操控	各 baseline	整体最强	成功率与回报均领先
LIBERO-90（VLA backbone π₀）	冻结 π₀	显著提升	大型 Transformer 骨干可扩展
Franka 拾放（物理机器人）	18/40（冻结骨干）	33/40	+83% 成功次数
Franka 挂杯（物理机器人）	11/20（冻结骨干）	17/20	+55% 成功次数

**图9：Franka 真实机器人任务。** 左：空间拾放任务，在 2×4 网格（40 个位置）上评估；右：挂杯任务，机器人需抓住杯子并将杯柄对准木架插入。 LP-DS 在仿真中进行潜在空间 RL 适应，并将所得的引导策略直接迁移至物理机器人执行。

5.2 行为多样性分析

通过 Kozachenko–Leonenko k-NN 动作熵估计器，LP-DS 在在线适应过程中始终保持比 DSRL 更高的动作空间熵，同时成功率也更高。噪声空间引导方法（LP-DS 和 DSRL）相对冻结骨干均会降低熵，这是将概率质量集中于高价值噪声区域的固有代价；但 LP-DS 的信任域约束有效减缓了这一过程。 DPPO 直接在动作空间微调，因此熵变化幅度最小，但整体性能通常不及 LP-DS。

动作熵对比 — **图5：在线适应期间的动作熵估计（Adroit Pen，3 seeds）。** LP-DS 在整个训练过程中保持比 DSRL 更高的动作熵，印证了拉格朗日信任域机制能有效缓解过早的模式坍塌。 DPPO 熵最高但成功率通常低于 LP-DS。

5.3 消融实验与超参灵敏度

在 Adroit Pen 的消融实验中：

移除拉格朗日惩罚：训练不稳定，最终成功率下降，动作熵持续衰减（向单一模式收缩）。
移除拉格朗日惩罚 + 噪声边界：行为极度不稳定，频繁探索高斯先验下几乎不可能出现的极端噪声区域，成功率极低。
完整 LP-DS：最高成功率 + 最高动作熵，证明拉格朗日信任域是防止分布外引导的核心机制。

对信任域目标 δ 的扫描实验（Hopper、Walker2d、RoboMimic Square、Adroit Relocate）表明： δ > 0.1 均能取得强劲性能；0.35、0.5、0.66 等邻近值表现相近。 δ 主要充当粗粒度行为旋钮而非需要精细调节的脆弱超参数。

Avoiding 环境成功率与目标覆盖 — **图：Avoiding 环境中的多路径多样性。** LP-DS 在不同信任域大小 δ 下展现出可控的多样性—专业化权衡。小信任域（δ=0.01）保留更广的障碍物绕行路径集合；较大信任域（δ=0.3）使策略集中于较窄的成功路线。 DSRL 则坍塌到单一主导路径。

5.4 跨架构鲁棒性

在 Hopper-v2 上进行的扩散 vs. 流匹配骨干对比实验表明，LP-DS 在两种骨干架构下取得相当的最终性能，证明残差扰动和信任域框架并不依赖于特定的去噪扩散链，可泛化到连续时间流模型。在 LIBERO-90 基准上使用大型 π₀ VLA 骨干同样获得显著性能提升，验证了 LP-DS 可扩展至大型 Transformer 基础模型。

04 局限性

说明：本文未设置独立的"局限性"章节，但在结论（Section 6）和 Impact Statement 中有明确论述。以下条目标注来源：明确陈述（stated）或 推断（inferred）。

信任域目标 δ 仍需人工选择（stated + inferred）

论文指出 δ > 0.1 时方法较为鲁棒，且 0.35、0.5、0.66 等值效果相近，但对于不同任务和骨干架构，最优 δ 仍需在一定范围内选取。结论中将"自适应信任域目标"（adaptive trust-region targets）列为未来工作方向。

噪声空间引导固有地降低行为熵（stated）

论文明确指出："Noise-space steering methods (LP-DS, DSRL) exhibit an inherent reduction in entropy relative to the backbone." 虽然 LP-DS 比 DSRL 保留了更多多样性，但相比直接在动作空间微调（DPPO），其动作空间熵仍会随训练进行而下降，这是潜在空间模式选择的内在代价。

依赖仿真适应再迁移的 sim-to-real 流程（inferred）

真实机器人实验（Section 5.7）采用"仿真中进行潜在空间 RL 适应，再迁移到物理机器人"的流程。这意味着方法在一定程度上依赖高质量的任务匹配仿真器；在仿真-真实差距（sim-to-real gap）较大的场景中，其性能有多大程度可维持尚不清楚。

部分可观测与大规模 VLA 场景的验证有限（stated）

论文结论明确将"部分可观测环境"（partially observable）和"大规模视觉-语言-动作设置"（large-scale VLA settings）列为未来工作方向，暗示当前验证覆盖范围有限，尤其是在需要长时间记忆或复杂感知的场景中。

双 Critic 引入额外计算开销（inferred）

LP-DS 维护动作空间 critic Q^A 和潜在空间 critic Q^W 共两个独立 critic，以及独立的 actor 和拉格朗日乘子 α 的更新。相比仅有单个 critic 的 DSRL，每步的计算和存储成本更高，在大规模 VLA 骨干上的实际开销尚未量化报告。