机器人 · Robotics · arXiv 2026

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

通过视频世界模型与VLA策略的闭环迭代联合优化,低成本实现机器人操作能力跃升
Xiaokang Liu, Zechen Bai, Hai Ci, Kevin Yuchen Ma, Mike Zheng Shou · Show Lab, National University of Singapore

物理机器人强化学习代价高昂,而现有视频世界模型作为虚拟环境时存在两大缺陷:对细粒度动作不敏感(尤其在"近成功"失败情形下大量幻觉成功),以及缺乏原生奖励信号。 本文提出 World-VLA-Loop,将 Success And Near-Success(SANS)数据集、状态感知奖励头、GRPO 策略优化以及迭代闭环增广四个模块整合为统一框架,策略与世界模型互相促进,持续提升。

arXiv · Feb 2026 GRPO · OpenVLA-OFT Cosmos-Predict 2 📄 arXiv:2602.06508
VLA policy video world model reinforcement learning robot manipulation closed-loop learning near-success trajectory state-aware reward GRPO 机器人操作 视频世界模型

01 动机

在真实物理环境中对VLA(Vision-Language-Action)策略进行强化学习,需要大量机器人交互,代价极高且存在安全风险。 视频世界模型作为虚拟环境是一条有吸引力的替代路径,但现有方案存在两个关键瓶颈,导致实际效果受限。

问题一:动作感知不精准

当机器人动作存在微小误差("近成功"情形,例如差一点就能抓到物体)时,现有视频世界模型 "frequently hallucinate successful outcomes even under erroneous actions, reflecting weak grounding in fine-grained physical dynamics"(论文原话)。 这意味着用于RL训练的虚拟rollout质量低,导致策略无法从失败中学习。

问题二:缺乏原生奖励信号

奖励需要通过另一个模块(如VLM)从生成的视频帧中提取。由于视频质量本身就存在幻觉, 计算出来的奖励信号不可靠,策略优化方向失真。 此外,随着VLA策略在RL训练中不断改进,其失败模式也随之改变,固定的世界模型无法跟上,造成分布偏移。

"Current video generation-based world models, when used as RL environments for VLA policies, struggle with two critical limitations: imprecise action-following, especially in near-success failure cases, and the absence of a reliable native reward signal."
三种世界模型范式对比
Figure 1:三种机器人VLA强化学习范式对比:手工构建的数字孪生环境、基于3D重建的仿真器、视频世界模型。 World-VLA-Loop 属于第三类,通过闭环迭代解决动作感知不精准的核心问题。 右图显示两轮联合优化后,真实机器人实验中两项任务的成功率分别提升了 36.7%26.6%
+24.0%LIBERO-Object 成功率提升
+10.0%LIBERO-Spatial 成功率提升
+23.4%真实场景 Pick Cup 提升
+13.3%第二次迭代额外相对提升

02 方法

World-VLA-Loop 由四个相互配合的模块构成:SANS 数据集构建 → 状态感知视频世界模型训练 → VLA策略GRPO强化学习 → 迭代闭环数据增广。 四个模块首尾相接,形成闭环:策略进化产生新的rollout数据,新数据再次微调世界模型,从而实现"策略—世界模型"的持续共同进化。

World-VLA-Loop 完整流程图
Figure 3:完整流程。 (1)从真实机器人收集"成功 + 近成功"轨迹,构建 SANS 数据集; (2)基于 Cosmos-Predict 2 预训练状态感知视频世界模型(含联合奖励预测头); (3)以世界模型为虚拟环境,用 GRPO 对 OpenVLA-OFT 进行强化学习后训练; (4)将改进策略产生的新成功/近成功轨迹追加到 SANS,微调世界模型,开始下一轮迭代。

模块一:SANS 数据集(Success And Near-Success)

传统数据集只保留成功轨迹,导致世界模型看不到"差一点就失败"的细粒度物理动态。 SANS 数据集刻意混入"近成功"失败轨迹——即"the robot fails to achieve a specific goal due to minor action errors"—— 迫使模型"focus on fine-grained nuances in spatial dynamics"。 在 ManiSkill 预训练阶段收集 35k 视频-动作对;在任务特定阶段,每个任务收集约 50 条成功轨迹和 50 条近成功失败轨迹。

近成功失败样例
Figure 2:近成功失败样例。 透明叠加层显示机器人夹爪真实轨迹(ground-truth),与世界模型生成帧中的位置存在明显偏差。 现有视频世界模型在这类情形下常常"幻觉"出抓取成功的画面,而 SANS 训练后的模型能更准确区分成功与失败。

模块二:状态感知视频世界模型

以 Cosmos-Predict 2 为基础,输入观测帧序列和机器人动作(6-DoF 末端执行器位姿 + 夹爪状态), 自回归预测未来帧。关键创新是在扩散 Transformer 中增加奖励预测头(reward prediction head), 直接作用于扩散隐变量而非后处理步骤。联合训练损失为:

ℒ = ℒ_flow + λ · Σᵢ₌₁ᵀ ‖r̂ₜ − rₜ‖²

联合训练带来双重好处:(1)奖励与视觉结果自然对齐;(2)生成器受奖励监督约束,被迫 "better distinguish successful versus failed execution outcomes under different action conditions"。 对比实验显示,集成奖励头的准确率(88–94%)优于独立VLM奖励(Qwen3-VL,84–93.9%),且推理效率更高。

模块三:VLA策略GRPO强化学习

以 OpenVLA-OFT 为基础策略,世界模型作为虚拟环境提供多步观测和二值奖励信号。 对步骤级奖励设阈值,转化为任务成功信号,驱动 GRPO 优化。 chunk size 统一设为 24 帧。

模块四:迭代闭环增广

每轮 RL 训练后,将改进策略在真实机器人上产生的新成功和近成功 rollout 追加至 SANS 数据集, 再次微调世界模型,进入下一轮迭代,实现 "a comprehensive, iterative joint-optimization framework for both the world model and the VLA policy"

03 实验

在仿真(LIBERO benchmark:Object / Goal / Spatial 三个任务套件)和真实机器人(Franka 机械臂 + RealSense D435)上进行评估。 基线为 OpenVLA-OFT SFT(监督微调版);上界为在 LIBERO 物理仿真器中进行 RL 的 Oracle 系统。

视频生成质量

指标数值说明
SSIM0.91结构相似度
PSNR28.09峰值信噪比 (dB)
LPIPS0.045感知相似度(越低越好)
Visual Outcome Alignment90%视觉结果与真实一致率(平均)
Reward Accuracy87.25%奖励预测准确率(平均)

LIBERO 任务成功率对比

任务OpenVLA-OFT SFT(基线)World-VLA-Loop(本文)提升
LIBERO-Object-1~73.9%~97.9%+24.0%
LIBERO-Goal-1~87.6%~95.7%+8.1%
LIBERO-Spatial-1~86.9%~96.9%+10.0%
LIBERO Oracle(上界参考)~98.5%(在真实物理仿真器RL)

真实机器人成功率对比

任务OpenVLA-OFT SFT(基线)World-VLA-Loop(本文)提升
Pick and Place Cup13.3%36.7%+23.4%
Pushing Cube26.7%40.0%+13.3%
LIBERO和真实机器人成功率曲线
Figure 4:RL训练步数对应的成功率曲线,涵盖 LIBERO Object / Goal / Spatial 和真实机器人两项任务。 可见在所有场景下,World-VLA-Loop 均随训练步数持续提升,最终接近或超过基线水平的天花板。
定性对比:基线vs.迭代优化
Figure 5:定性对比。上方为世界模型生成的rollout,下方为真实机器人执行结果。 第一列为SFT基线(夹爪轨迹不精准),第二列为第一轮RL后(动作精准度提升),第三列为第二轮迭代RL后(进一步精细化)。 迭代闭环带来的累积改进清晰可见。

消融实验

04 局限性

说明:以下局限性均为论文作者明确陈述(stated by the authors)。
长时域任务(>300 帧)不适用

论文明确指出:"Severe quality degradation typically occurs only after the 300-frame mark", 因此 LIBERO-100 等需要 400+ 帧的长时域任务在当前框架下无法支持。 自回归视频模型存在"limited context memory and quality drift"的固有缺陷,是该限制的根本原因。

奖励信号稀疏,收敛慢

目前使用的是稀疏终态奖励(任务最终是否成功),而非步骤级中间子目标奖励。 作者指出未来需要"transitioning from sparse final-state rewards to step-wise intermediate sub-goals for improved RL convergence"

视频骨干网络的长期稳定性有待提升

当前基于 Cosmos-Predict 2 的视频模型在帧数超过阈值后存在质量漂移(quality drift)。 作者指出需要"exploring video backbones with enhanced long-term stability"和 更新的自回归视频生成技术来突破 300 帧限制,以支持更复杂的操作任务。