机器人操控 · 强化学习 · Vision-Language-Action

SimpleVLA-RL:通过强化学习扩展 VLA 训练

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Dehui Wang, Dingxiang Luo, Yuchen Fan, Bowen Zhou(上海交通大学 / 上海人工智能实验室); Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang(北京大学); Tianxing Chen(香港大学); Ganqu Cui, Jia Zeng, Jiangmiao Pang, Youbang Sun, Yao Mu, Ning Ding(上海人工智能实验室)

SimpleVLA-RL 将专为大语言模型设计的 veRL 框架扩展至视觉-语言-动作(VLA)模型,通过简单的二值结果奖励即可在 LIBERO 和 RoboTwin 等多个基准上实现显著性能提升,并在无真实机器人数据的条件下完成 sim-to-real 迁移。

Technical Report · 2025 上海交通大学 / 上海 AI Lab / 北京大学 / 香港大学 基准:LIBERO · RoboTwin 1.0 / 2.0 📄 arXiv: 2509.09674 PDF 原文
关键词Vision-Language-Action强化学习机器人操控sim-to-real迁移在线策略优化PPO结果奖励分布式训练veRL探索增强

01 动机

VLA 模型在机器人操控领域展现出强大潜力,但面临两大核心挑战:一是人工操作轨迹数据稀缺——大量高质量示范数据难以获取;二是分布偏移下泛化能力有限——在监督微调(SFT)范式下,模型面对未见场景时表现急剧下降。已有工作尝试将强化学习(RL)引入 VLA,但受限于在线训练效率低下和缺乏可扩展的并行化框架,实际应用受阻。

"我们提出 SimpleVLA-RL,通过 VLA 专用的轨迹采样、可扩展并行化、多环境渲染和优化的损失计算,将 veRL 框架扩展至 VLA 模型,实现高效在线 RL 训练。"
SimpleVLA-RL 概览
图1:SimpleVLA-RL 总体概览。 框架将 VLA 模型的闭环环境交互与 veRL 的分布式训练基础设施结合,支持多环境并行渲染与在线策略优化。
99.1%LIBERO 平均成功率
(原 SFT 基线:91.0%)
68.8%RoboTwin 2.0 平均成功率
(原 SFT 基线:38.3%)
38.5%Sim-to-Real 迁移成功率
(无真实机器人数据)
+74.4%LIBERO-Goal 单轨迹数据场景
RL 相对 SFT 的提升幅度

02 方法

SimpleVLA-RL 以 OpenVLA-OFT 为骨干,将 veRL(专为 LLM RL 训练设计的分布式框架)扩展至具有闭环环境交互需求的 VLA 场景。核心创新在于三个 VLA 专属机制:交互式轨迹采样结果奖励建模探索增强策略

训练框架示意图
图2:SimpleVLA-RL 训练框架。 左侧为 Actor Worker(负责与模拟环境交互生成轨迹),右侧为 Critic/Reference Worker(负责策略更新)。通过分离 rollout 与训练进程实现高效并行。

交互式 VLA Rollout

与 LLM 生成文本不同,VLA 需要在环境中持续闭环执行动作并获取新观测。SimpleVLA-RL 通过温度采样(T=1.6)对动作 token 进行多样化采样,每组生成 G 条轨迹并使用二值奖励(成功=1,失败=0)统一标注,避免了繁琐的过程奖励设计。

结果奖励建模

采用简单二值结果奖励(outcome reward),成功轨迹奖励为 1,失败轨迹奖励为 0,奖励在整条轨迹的所有 token 上均匀分配。该设计无需人工设计复杂的中间奖励信号,显著降低了奖励工程成本,同时仍能提供有效的学习信号。

探索增强策略(三项改进)

探索增强消融实验
图3:探索增强消融实验结果。 三项增强措施均对性能提升有正向贡献:动态采样、Clip Higher 和更高 rollout 温度。图中展示了各组件在 RoboTwin 任务上的消融对比。

03 实验

实验在三个主要基准上进行:LIBERO(4 个子任务)、RoboTwin 1.0(4 个任务)和 RoboTwin 2.0(12 个任务,按操作时长分为短/中/长三类),并另设真实机器人 sim-to-real 迁移实验(4 个任务)。基线包括 OpenVLA-OFT(SFT)、π₀ 和 RDT。

LIBERO 基准结果

模型SpatialObjectGoalLong平均
OpenVLA-OFT(SFT 基线) 95.390.686.591.091.0
w/ SimpleVLA-RL 99.199.298.599.199.1
提升 (Δ) +3.8+8.6+12.0+8.1+8.1

RoboTwin 2.0 综合结果(按时长分类)

模型短时长均值中时长均值长时长均值总体均值
RDT33.3
π₀45.558.843.349.2
OpenVLA-OFT(SFT)21.347.146.538.3
w/ SimpleVLA-RL 64.972.569.068.8
提升 (Δ) +43.6+25.4+22.4+30.5

Sim-to-Real 迁移(无真实机器人数据)

模型Stack BowlsPlace Empty CupPick BottleClick Bell平均
RDT60.04.010.020.023.5
OpenVLA-OFT38.02.00.030.017.5
w/ SimpleVLA-RL 70.010.014.060.038.5

数据稀缺场景:单轨迹数据 + RL

在每个任务仅提供 一条示范轨迹 的极端稀缺条件下,RL 训练仍能将 LIBERO-Long 成功率从 17.3%(SFT)提升至 91.7%,接近全量数据 SFT 的 96.9%,展示出强大的数据效率优势。

设置SpatialObjectGoalLong
单轨迹 SFT54.959.617.348.9
单轨迹 SFT + RL 98.798.891.796.9
提升 (Δ) +43.8+39.2+74.4+48.0

新现象:「推切」行为("Pushcut" Phenomenon)

推切行为示例
图4:"Pushcut" 行为演示。 在 RL 训练过程中,策略自发涌现出示范数据中从未出现的行为模式:在 RoboTwin 任务中,策略学会直接将物体推至目标位置,而非沿示范轨迹执行抓取-移动-放置的完整序列,同样实现了任务成功,但路径更为简洁高效。

消融实验结果

消融实验验证了三项探索增强措施均对性能有正向贡献:去除任一组件均导致成功率下降。此外,模型先验能力是 RL 奏效的前提——当基础模型初始成功率为 0% 时,RL 训练无法产生有效梯度,无法收敛;基础模型需具备约 7–10% 的初始成功率,RL 才能有效发挥作用(见 Table 7)。

泛化分析
图5:LIBERO 上的泛化分析。 在空间配置、物体类型、任务场景等多维度对比 SFT 与 RL 的泛化能力,RL 在未见场景下的成功率显著高于 SFT,而 SFT 表现出明显的灾难性遗忘现象。

04 局限性

说明:论文结论部分提及部分局限,下列条目中「作者明确指出」的内容均来自论文原文,「推断(inferred)」的内容为基于设计分析所得。
依赖足够的初始模型能力(作者明确指出)

RL 训练的有效性高度依赖基础模型的初始能力。当基础模型对某任务的初始成功率为 0% 时,无法生成任何成功轨迹,梯度流完全中断,RL 训练无法带来任何提升。实验显示,模型需具备约 7–10% 的基线成功率,RL 才开始奏效(Table 7)。

依赖结果奖励,需成功轨迹支撑梯度(作者明确指出)

当前框架仅使用二值结果奖励(outcome-only rewards),这要求每批 rollout 中必须包含至少部分成功轨迹,方能产生有效的学习信号。对于极难任务,初始成功率极低,导致 RL 收益有限,甚至无效。

仿真环境与真实世界之间的感知差异(推断,inferred)

尽管框架已实现无真实机器人数据的 sim-to-real 迁移(平均 38.5%),但仿真训练中视觉渲染、物理特性与真实环境的差距(sim-to-real gap)仍不可忽视,可能限制迁移性能上限,尤其对感知精度要求较高的任务(如 Pick Bottle 仅 14.0%)。

计算开销与训练成本(推断,inferred)

在线 RL 训练要求持续与模拟环境交互生成轨迹,相比 SFT 的离线训练,计算资源消耗显著增加。论文未报告具体训练时间或 GPU 成本,实际部署的计算可行性尚不明确。

技术报告阶段,代码/模型尚未公开(推断,inferred)

本文以 Technical Report 形式发布,目前未提及开源代码仓库或预训练模型权重,社区复现和后续研究的便利性有待提升。