机器人操作 · VLA · 强化学习后训练

Interactive Post-Training for Vision-Language-Action Models

RIPT-VLA:用稀疏二元奖励对 VLA 模型进行强化交互式后训练
Shuhan Tan · Kairan Dou · Yue Zhao · Philipp Krähenbühl  |  UT Austin · Nankai University  |  arXiv 2025

现有 VLA 模型依赖大量离线专家演示进行监督微调,模型在训练中从不感知自身行动的后果。RIPT-VLA 引入第三个训练阶段——在真实或仿真环境中与场景交互,只需稀疏的二元成功/失败信号,即可将模型性能大幅提升,甚至在仅有 1 条演示的情况下,将成功率从 4% 提升至 97%。

arXiv 2505.17016 2025 年 5 月 UT Austin & Nankai University 📄 arXiv:2505.17016 PDF
VLA reinforcement learning post-training 机器人操作 few-shot imitation sparse reward LOOP / RLOO dynamic sampling LIBERO benchmark OpenVLA-OFT policy fine-tuning

01 动机

大型预训练 VLA 模型(如 OpenVLA、QueST)在离线监督微调(SFT)之后仍存在两大根本缺陷:模型从未体验过自身决策的环境反馈;任务特化微调又需要昂贵的大量专家演示。强化学习理论上可以弥补这两点,但将 RL 扩展到大规模多任务 VLA 时,面临奖励稀疏、信用分配模糊、多任务难度不均衡等挑战。

"Current VLA training paradigms operate on static offline datasets...models never experience the consequences of their own actions during training, and task-specific fine-tuning requires large quantities of expensive human demonstrations."
RIPT-VLA 三阶段训练流程对比
图 1:传统两阶段(预训练 + SFT)与 RIPT-VLA 三阶段训练流程对比。第三阶段利用环境交互和二元成功信号,对 SFT 模型进行强化交互式后训练,无需额外的专家演示或稠密奖励。
97%1-shot 场景下从 4% 到 97% 成功率(15 轮内)
+21.2%LIBERO-LONG 5-shot 场景提升幅度
97.5%OpenVLA-OFT + RIPT 在 LIBERO 标准多任务成功率
+10.9%QueST 多任务平均成功率提升

02 方法

RIPT-VLA 在标准预训练和 SFT 之后,引入基于环境交互的强化学习后训练阶段。其核心是将 Leave-One-Out 优势估计(RLOO)与 PPO 优化相结合,并通过 dynamic sampling 机制过滤零优势样本组,从而在多任务不均衡场景下稳定策略梯度更新。整个框架仅需稀疏的二元成功/失败奖励,无需稠密奖励设计或额外的 critic 模型。

Leave-One-Out 优势估计(RLOO)

对每个上下文 c,模型在相同上下文下采样 K 条轨迹。第 k 条轨迹的 baseline 为其他 K−1 条轨迹奖励的均值:

bk = 1/(K−1) · ∑j≠k Rj  ,  Ak = Rk − bk

这提供了"group-normalized advantage",无需训练与 VLA 等规模的 value function,大幅降低显存开销。PPO 目标使用标准 clipped 策略比率(ε=0.2)。

Dynamic Sampling(动态采样过滤)

多任务场景中,部分任务已被 SFT 解决(全部成功),另一些任务则始终失败——两者都产生全零优势,对梯度更新毫无贡献。RIPT-VLA 的核心创新之一是:

"We discard any sampled context for which all K rollouts receive the same reward and resample."

这使得每个训练 batch 都由有效的非零优势样本构成,保持梯度信号的稳定性。

连续动作头的扩展(OpenVLA-OFT)

对于使用回归头(而非 token 分类)的模型,log-probability 无法直接获取。RIPT-VLA 为其增加一个轻量 scale prediction head 来估计 σθ,将连续动作输出建模为因子化高斯分布,从而对接 PPO 目标。

dynamic sampling 训练曲线
图 5:Dynamic sampling 对训练稳定性的影响。带 dynamic sampling 的 RIPT-VLA(蓝色)收敛更快、波动更小,最终成功率从 90.2%(无 dynamic sampling)提升至 93.5%。

03 实验

实验在 LIBERO(Goal / Spatial / Object / Long / 90)和 MetaWorld-45(ML45)仿真环境中展开,覆盖标准多任务、few-shot 泛化、跨场景/跨目标泛化四类设置。基线模型包括 QueST(离散 token 动作)和 OpenVLA-OFT(连续回归动作)。奖励信号仅为任务结束时的二元成功信号。

Table 1:LIBERO 标准多任务成功率(%)

方法GoalSpatialObjectLong平均
QueST80.887.493.668.882.7
QueST + RIPT-VLA92.795.698.487.593.6
OpenVLA-OFT97.997.698.492.996.7
OpenVLA-OFT + RIPT-VLA99.098.698.693.897.5

Table 2:Few-Shot 与大规模多任务成功率(%)

方法LIBERO-90ML45LONG (5-shot)ML45 (5-shot)
QueST88.691.050.263.6
QueST + RIPT-VLA94.392.271.476.0
提升幅度+5.7+1.2+21.2+12.4
LIBERO-LONG few-shot 学习曲线
图 2(few-shot 学习曲线):LIBERO-LONG 上,随演示条数增加,QueST + RIPT-VLA 的成功率显著高于纯 SFT 基线。5-shot 下从 50.2% 提升至 71.4%(+21.2 个百分点)。
跨场景泛化对比
图 3(跨场景泛化):1-shot 设置下,RIPT-VLA 在跨场景任务中成功率高达 97.2%,而 SFT 基线仅约 5%。强化交互式后训练赋予模型从极少演示中泛化的能力。
跨目标泛化结果
图 4(跨目标泛化):不同任务对之间的 cross-goal 泛化成功率对比,RIPT-VLA 在多个任务组合上均优于 SFT 基线,体现了策略的跨目标适应能力。

消融实验

Table 3 展示 dynamic sampling 的贡献:QueST SFT 基线为 85.0%,去掉 dynamic sampling 的 RIPT-VLA 达到 90.2%(+5.2),完整 RIPT-VLA 达到 93.5%(+8.5)。Dynamic sampling 在 QueST SFT 基础上带来额外 +3.3 个百分点的提升,作者指出这"significantly boosts performance across all task categories"。

04 局限性

Note:论文未设独立 Limitations 章节。以下前两条为作者在正文/讨论中明确提及的限制;第三、四条为根据方法设计推断(inferred)。
需要可交互的仿真/真实环境

RIPT-VLA 需要在训练期间执行 rollout 并获取环境反馈。对于无法重置或成本极高的真实环境,这一需求会带来显著的部署障碍。作者仅在仿真 benchmark(LIBERO、MetaWorld)上验证,未报告真实机器人实验。

对初始状态方差敏感(inferred)

Figure 7 显示,当初始状态标准差超过自然方差的 2× 时,性能开始下降。这意味着 RIPT-VLA 学到的策略对物体初始摆放位置的扰动容忍度有限,在高随机性真实场景中鲁棒性存疑。

依赖足够多样的 context 数据集(inferred)

Figure 6 表明,context 数据集规模影响 RIPT-VLA 的泛化性能。当可用 context(演示)数量极少时,策略的泛化能力受限。

连续动作头需额外 scale head(inferred)

对于 OpenVLA-OFT 等使用连续回归头的模型,RIPT-VLA 需训练一个额外的轻量 scale prediction head 来估计高斯分布的方差,增加了架构改动成本;该 head 的质量对策略优化也有潜在影响。

未结合推理与规划(作者展望)

作者在讨论中指出,未来应"combine RIPT-VLA with reasoning and planning in VLA models to enable more sophisticated and generalizable behaviors",暗示当前方法在长时程复杂推理任务上仍有提升空间。