Interactive Post-Training for Vision-Language-Action Models

01 动机

大型预训练 VLA 模型（如 OpenVLA、QueST）在离线监督微调（SFT）之后仍存在两大根本缺陷：模型从未体验过自身决策的环境反馈；任务特化微调又需要昂贵的大量专家演示。强化学习理论上可以弥补这两点，但将 RL 扩展到大规模多任务 VLA 时，面临奖励稀疏、信用分配模糊、多任务难度不均衡等挑战。

"Current VLA training paradigms operate on static offline datasets...models never experience the consequences of their own actions during training, and task-specific fine-tuning requires large quantities of expensive human demonstrations."

**图 1：**传统两阶段（预训练 + SFT）与 RIPT-VLA 三阶段训练流程对比。第三阶段利用环境交互和二元成功信号，对 SFT 模型进行强化交互式后训练，无需额外的专家演示或稠密奖励。

97%1-shot 场景下从 4% 到 97% 成功率（15 轮内）

+21.2%LIBERO-LONG 5-shot 场景提升幅度

97.5%OpenVLA-OFT + RIPT 在 LIBERO 标准多任务成功率

+10.9%QueST 多任务平均成功率提升

02 方法

RIPT-VLA 在标准预训练和 SFT 之后，引入基于环境交互的强化学习后训练阶段。其核心是将 Leave-One-Out 优势估计（RLOO）与 PPO 优化相结合，并通过 dynamic sampling 机制过滤零优势样本组，从而在多任务不均衡场景下稳定策略梯度更新。整个框架仅需稀疏的二元成功/失败奖励，无需稠密奖励设计或额外的 critic 模型。

Leave-One-Out 优势估计（RLOO）

对每个上下文 c，模型在相同上下文下采样 K 条轨迹。第 k 条轨迹的 baseline 为其他 K−1 条轨迹奖励的均值：

b_k = 1/(K−1) · ∑_j≠k R_j ， A_k = R_k − b_k

这提供了"group-normalized advantage"，无需训练与 VLA 等规模的 value function，大幅降低显存开销。PPO 目标使用标准 clipped 策略比率（ε=0.2）。

Dynamic Sampling（动态采样过滤）

多任务场景中，部分任务已被 SFT 解决（全部成功），另一些任务则始终失败——两者都产生全零优势，对梯度更新毫无贡献。RIPT-VLA 的核心创新之一是：

"We discard any sampled context for which all K rollouts receive the same reward and resample."

这使得每个训练 batch 都由有效的非零优势样本构成，保持梯度信号的稳定性。

连续动作头的扩展（OpenVLA-OFT）

对于使用回归头（而非 token 分类）的模型，log-probability 无法直接获取。RIPT-VLA 为其增加一个轻量 scale prediction head 来估计 σ_θ，将连续动作输出建模为因子化高斯分布，从而对接 PPO 目标。

dynamic sampling 训练曲线 — **图 5：**Dynamic sampling 对训练稳定性的影响。带 dynamic sampling 的 RIPT-VLA（蓝色）收敛更快、波动更小，最终成功率从 90.2%（无 dynamic sampling）提升至 93.5%。

03 实验

实验在 LIBERO（Goal / Spatial / Object / Long / 90）和 MetaWorld-45（ML45）仿真环境中展开，覆盖标准多任务、few-shot 泛化、跨场景/跨目标泛化四类设置。基线模型包括 QueST（离散 token 动作）和 OpenVLA-OFT（连续回归动作）。奖励信号仅为任务结束时的二元成功信号。

Table 1：LIBERO 标准多任务成功率（%）

方法	Goal	Spatial	Object	Long	平均
QueST	80.8	87.4	93.6	68.8	82.7
QueST + RIPT-VLA	92.7	95.6	98.4	87.5	93.6
OpenVLA-OFT	97.9	97.6	98.4	92.9	96.7
OpenVLA-OFT + RIPT-VLA	99.0	98.6	98.6	93.8	97.5

Table 2：Few-Shot 与大规模多任务成功率（%）

方法	LIBERO-90	ML45	LONG (5-shot)	ML45 (5-shot)
QueST	88.6	91.0	50.2	63.6
QueST + RIPT-VLA	94.3	92.2	71.4	76.0
提升幅度	+5.7	+1.2	+21.2	+12.4

LIBERO-LONG few-shot 学习曲线 — **图 2（few-shot 学习曲线）：**LIBERO-LONG 上，随演示条数增加，QueST + RIPT-VLA 的成功率显著高于纯 SFT 基线。5-shot 下从 50.2% 提升至 71.4%（+21.2 个百分点）。

跨场景泛化对比 — **图 3（跨场景泛化）：**1-shot 设置下，RIPT-VLA 在跨场景任务中成功率高达 97.2%，而 SFT 基线仅约 5%。强化交互式后训练赋予模型从极少演示中泛化的能力。

跨目标泛化结果 — **图 4（跨目标泛化）：**不同任务对之间的 cross-goal 泛化成功率对比，RIPT-VLA 在多个任务组合上均优于 SFT 基线，体现了策略的跨目标适应能力。

消融实验

Table 3 展示 dynamic sampling 的贡献：QueST SFT 基线为 85.0%，去掉 dynamic sampling 的 RIPT-VLA 达到 90.2%（+5.2），完整 RIPT-VLA 达到 93.5%（+8.5）。Dynamic sampling 在 QueST SFT 基础上带来额外 +3.3 个百分点的提升，作者指出这"significantly boosts performance across all task categories"。

04 局限性

Note：论文未设独立 Limitations 章节。以下前两条为作者在正文/讨论中明确提及的限制；第三、四条为根据方法设计推断（inferred）。

需要可交互的仿真/真实环境

RIPT-VLA 需要在训练期间执行 rollout 并获取环境反馈。对于无法重置或成本极高的真实环境，这一需求会带来显著的部署障碍。作者仅在仿真 benchmark（LIBERO、MetaWorld）上验证，未报告真实机器人实验。

对初始状态方差敏感（inferred）

Figure 7 显示，当初始状态标准差超过自然方差的 2× 时，性能开始下降。这意味着 RIPT-VLA 学到的策略对物体初始摆放位置的扰动容忍度有限，在高随机性真实场景中鲁棒性存疑。

依赖足够多样的 context 数据集（inferred）

Figure 6 表明，context 数据集规模影响 RIPT-VLA 的泛化性能。当可用 context（演示）数量极少时，策略的泛化能力受限。

连续动作头需额外 scale head（inferred）

对于 OpenVLA-OFT 等使用连续回归头的模型，RIPT-VLA 需训练一个额外的轻量 scale prediction head 来估计高斯分布的方差，增加了架构改动成本；该 head 的质量对策略优化也有潜在影响。

未结合推理与规划（作者展望）

作者在讨论中指出，未来应"combine RIPT-VLA with reasoning and planning in VLA models to enable more sophisticated and generalizable behaviors"，暗示当前方法在长时程复杂推理任务上仍有提升空间。