机器人 · Robotics · arXiv 2511.15605

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

自参照策略优化:无需额外监督,让 VLA 在 200 步内从 48.9% 跃升至 99.2%
Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu

SRPO 提出一种全新的 VLA 强化学习后训练框架:以模型在 batch 内自身产生的成功轨迹作为"自参照"基准, 通过预训练视觉世界模型(V-JEPA 2)的潜在表征计算进度奖励,彻底摆脱对人工奖励设计或额外专家演示的依赖。 在 LIBERO 基准上仅需 200 步 RL 训练即实现 103% 相对提升,真实机器人实验也显著优于 SFT 基线。

arXiv 2511.15605 2025 年 11 月 LIBERO / Real-World Manipulation 📄 arXiv:2511.15605 PDF
VLA reinforcement learning 机器人操作 world model 进度奖励 LIBERO self-referential policy optimization

01 动机

当前 VLA 模型过度依赖专家演示,导致严重的 demonstration bias(演示偏差)——模型只学会复制演示中的轨迹, 无法探索更优策略。强化学习(RL)是克服这一限制的关键,但现有 VLA-RL 方法面临两大困境: 稀疏奖励(仅依赖二值成功信号,失败轨迹的信息完全浪费) 以及繁琐的人工奖励工程(需任务相关的密集奖励,难以泛化)。

"Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods...are crippled by severe reward sparsity."
SRPO overview:与现有 VLA-RL 方法的对比
图 1:三种 VLA-RL 范式对比。(a) 现有方法依赖稀疏的结果奖励(成功/失败二值),失败轨迹信息完全丢弃; (b) 手工设计过程奖励,需任务专属工程;(c) SRPO 利用 batch 内成功轨迹作为自参照, 通过潜在世界表征为失败轨迹提供细粒度进度奖励,无需任何额外监督。
99.2%LIBERO Online SRPO 平均成功率
48.9%One-shot SFT 基线(起点)
103%相对提升(200 步内,无额外监督)
+86.7%真实机器人 π₀-FAST 改善幅度

02 方法

SRPO 框架由两个核心模块组成:World Progress Reward Modeling(世界进度奖励建模) 和 Self-Referential Policy Optimization(自参照策略优化)。 前者借助预训练视觉世界模型 V-JEPA 2 在潜在空间中衡量轨迹的行为进度, 后者以此进度信号替代稀疏结果奖励驱动策略更新。

SRPO 方法流程图
图 2:SRPO 完整流程。① 用 V-JEPA 2 对 batch 内所有轨迹(成功+失败)编码为潜在表征; ② 用 DBSCAN 对成功轨迹的潜在表征聚类,得到多个"行为参照中心"; ③ 对失败轨迹计算其与最近参照中心的 L2 距离,经 Sigmoid 映射为 (0,1) 进度奖励; ④ 成功轨迹直接赋予 reward = 1.0; ⑤ 以轨迹级进度奖励 g 替代结果信号,输入 GRPO 目标函数更新策略。

World Progress Reward Modeling

对于 batch 中的每条轨迹,V-JEPA 2 将视频片段编码为紧凑的潜在向量序列。 成功轨迹通过 DBSCAN 聚类后形成若干"参照中心",代表不同的成功行为模式。 失败轨迹 i 到最近参照中心的 L2 距离 di 经标准化后, 通过 Sigmoid 函数 φ 映射为进度奖励:

gi = 1.0(成功轨迹);gi = φ((di − d̄) / σd)(失败轨迹)

采用聚类而非单一参照轨迹的关键原因是:随着 RL 训练推进,成功策略愈发多样化, 单一参照会造成"后期性能收益显著衰减",而多中心参照能持续覆盖探索空间。

与像素级世界模型(如 Cosmos-Predict2)不同,V-JEPA 2 的潜在表征天然具备跨任务迁移能力, "naturally capture transferable behavioral progress patterns",无需任务专属微调。

Self-Referential Policy Optimization

策略更新沿用 GRPO(Group Relative Policy Optimization)框架, 将轨迹级进度奖励 g 替代原始结果信号,以标准化优势估计驱动梯度:

 = (g − μg) / σg

目标函数包含 clipped surrogate loss 与 KL 散度正则项,防止策略偏离 SFT 初始化过远。 "自参照"的精髓在于:参照基准完全来自模型自身的 in-batch 成功轨迹, 无需外部专家演示,随训练动态更新,天然契合当前策略的能力边界。

进度奖励质量对比
图 3:三种进度估计方式的对比(模拟环境 + 真实环境)。 SRPO(潜在表征)的进度曲线单调递增、平滑, 而像素级和 ImageBind 基线的曲线则出现振荡或停滞,无法有效引导策略学习。

03 实验

实验在 LIBERO(4 个任务套件:Spatial / Object / Goal / Long, 每套件 10 个任务,每任务 1 条演示)和真实 X-ARM 7 机器人上进行(5 类操作任务)。 基线模型为 OpenVLA*-One(one-shot SFT,仅单条演示训练),评估指标为任务成功率。

LIBERO 基准主结果(Table 1)

方法SpatialObjectGoalLong平均
OpenVLA*-One(One-shot SFT)61.755.542.635.848.9
+ Offline SRPO97.591.490.191.092.5
+ Online SRPO100.099.498.698.899.2

Online SRPO 在 Spatial 套件上实现满分(100.0%),四套件平均达 99.2%, 较 SFT 基线提升 50.3 个百分点,代表"103% 的相对提升,无需任何额外监督"。

LIBERO-Plus 鲁棒性测试(Table 2)

方法平均成功率(7 扰动维度)
One-shot SFT 基线19.4%
+ Online SRPO59.6%(+40.2 pts)
+ Online SRPO + 数据增强82.1%(+51.4 pts)

LIBERO-Plus 涵盖相机位置、机器人初始化、语言描述、光照、背景、噪声、布局 7 个扰动维度, 代表"167% 相对提升"(相对 SFT 19.4%)。

进度奖励质量定量评估(Table 3)

方法SC (Spearman ↑)Mono ↑MMD ↑JS ↑SMD ↑
Pixel-level0.1250.4980.2740.5482.100
ImageBind0.9570.8370.3560.40818.111
SRPO(V-JEPA 2)0.9980.9920.6150.572188.799

SRPO 在 Spearman 时序相关性(0.998)和单调性(0.992)上接近完美, 成功/失败轨迹分布分离度(SMD = 188.799)远超竞争方案,验证潜在世界模型表征的优越性。

真实机器人实验(Section 5.4)

真实机器人结果对比
图 8:真实 X-ARM 7 机器人上 5 类操作任务(水果放置、毛巾折叠、黑板擦拭、卡片选取等)的成功率对比。 SRPO(offline RL)相较 SFT 基线,π₀(扩散策略)平均提升 +66.8%,π₀-FAST(自回归策略)平均提升 +86.7%。

消融实验

消融实验
图 10:Object 套件消融实验。去掉"自参照机制"(改用固定外部专家参照)导致性能在次优结果处停滞, 训练步数需增加约 1.4×;去掉"聚类机制"(改用单条最近成功轨迹)在训练后期性能收益显著下降。 超参数分析显示 α=0.8(进度奖励权重)为最优,α=0 仅靠结果奖励不足以高效学习。

训练效率

SRPO 在 LIBERO 四套件上达到收敛所需步数:Spatial 79 步、Object 59 步、Goal 103 步、Long 219 步。 相较 GRPO,SRPO 展现出"steeper efficiency slope...especially for long-horizon tasks", 长时序任务收敛速度提升尤为明显。

04 局限性

Note:以下局限性部分为论文作者明确陈述,部分为从设计出发的推断,已分别标注。
真实环境采用 Offline RL 而非 Online RL(作者明确陈述)

出于安全顾虑,真实机器人实验采用 Advantage-Weighted Regression(离线 RL 范式), 而非模拟环境中的完整 online RL。这意味着真实场景下无法像模拟中那样进行在线探索, 可能限制自参照机制在动态多样化真实任务中的充分发挥。

潜在世界模型依赖 V-JEPA 2 预训练质量(推断)

SRPO 的进度奖励质量高度依赖 V-JEPA 2 所提供的潜在表征。 若目标任务域与 V-JEPA 2 预训练数据差异较大(如工业场景、水下操作等), 潜在表征的迁移能力可能下降,进而影响进度奖励的可靠性。论文本身未对此进行系统性分析。

像素级世界模型方案存在场景一致性问题(作者明确陈述)

论文附录 E 通过 Cosmos-Predict2 像素级世界模型的实验展示了"generated videos suffer from poor scene consistency",证明像素级方案在多样任务下泛化困难, 这也是作者选择潜在表征而非像素预测的核心依据,但同时表明 SRPO 的方法论选择受限于此类问题的存在。

仅使用第三视角视觉观测(作者明确陈述)

SRPO 在实验中"achieves SOTA using only third-person visual observations and language instructions", 无需腕部图像、本体感知或 3D 数据。虽然这是一个优点, 但也意味着对于依赖精细末端执行器信息的高精度操作任务,该方案尚未完整验证。