World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

01 动机

在真实物理环境中对VLA（Vision-Language-Action）策略进行强化学习，需要大量机器人交互，代价极高且存在安全风险。视频世界模型作为虚拟环境是一条有吸引力的替代路径，但现有方案存在两个关键瓶颈，导致实际效果受限。

问题一：动作感知不精准

当机器人动作存在微小误差（"近成功"情形，例如差一点就能抓到物体）时，现有视频世界模型 "frequently hallucinate successful outcomes even under erroneous actions, reflecting weak grounding in fine-grained physical dynamics"（论文原话）。这意味着用于RL训练的虚拟rollout质量低，导致策略无法从失败中学习。

问题二：缺乏原生奖励信号

奖励需要通过另一个模块（如VLM）从生成的视频帧中提取。由于视频质量本身就存在幻觉，计算出来的奖励信号不可靠，策略优化方向失真。此外，随着VLA策略在RL训练中不断改进，其失败模式也随之改变，固定的世界模型无法跟上，造成分布偏移。

"Current video generation-based world models, when used as RL environments for VLA policies, struggle with two critical limitations: imprecise action-following, especially in near-success failure cases, and the absence of a reliable native reward signal."

三种世界模型范式对比 — **Figure 1：**三种机器人VLA强化学习范式对比：手工构建的数字孪生环境、基于3D重建的仿真器、视频世界模型。 World-VLA-Loop 属于第三类，通过闭环迭代解决动作感知不精准的核心问题。右图显示两轮联合优化后，真实机器人实验中两项任务的成功率分别提升了 **36.7%** 和 **26.6%**。

+24.0%LIBERO-Object 成功率提升

+10.0%LIBERO-Spatial 成功率提升

+23.4%真实场景 Pick Cup 提升

+13.3%第二次迭代额外相对提升

02 方法

World-VLA-Loop 由四个相互配合的模块构成：SANS 数据集构建 → 状态感知视频世界模型训练 → VLA策略GRPO强化学习 → 迭代闭环数据增广。四个模块首尾相接，形成闭环：策略进化产生新的rollout数据，新数据再次微调世界模型，从而实现"策略—世界模型"的持续共同进化。

World-VLA-Loop 完整流程图 — **Figure 3：完整流程。** （1）从真实机器人收集"成功 + 近成功"轨迹，构建 SANS 数据集；（2）基于 Cosmos-Predict 2 预训练状态感知视频世界模型（含联合奖励预测头）；（3）以世界模型为虚拟环境，用 GRPO 对 OpenVLA-OFT 进行强化学习后训练；（4）将改进策略产生的新成功/近成功轨迹追加到 SANS，微调世界模型，开始下一轮迭代。

模块一：SANS 数据集（Success And Near-Success）

传统数据集只保留成功轨迹，导致世界模型看不到"差一点就失败"的细粒度物理动态。 SANS 数据集刻意混入"近成功"失败轨迹——即"the robot fails to achieve a specific goal due to minor action errors"—— 迫使模型"focus on fine-grained nuances in spatial dynamics"。在 ManiSkill 预训练阶段收集 35k 视频-动作对；在任务特定阶段，每个任务收集约 50 条成功轨迹和 50 条近成功失败轨迹。

**Figure 2：近成功失败样例。** 透明叠加层显示机器人夹爪真实轨迹（ground-truth），与世界模型生成帧中的位置存在明显偏差。现有视频世界模型在这类情形下常常"幻觉"出抓取成功的画面，而 SANS 训练后的模型能更准确区分成功与失败。

模块二：状态感知视频世界模型

以 Cosmos-Predict 2 为基础，输入观测帧序列和机器人动作（6-DoF 末端执行器位姿 + 夹爪状态），自回归预测未来帧。关键创新是在扩散 Transformer 中增加奖励预测头（reward prediction head），直接作用于扩散隐变量而非后处理步骤。联合训练损失为：

ℒ = ℒ_flow + λ · Σᵢ₌₁ᵀ ‖r̂ₜ − rₜ‖²

联合训练带来双重好处：（1）奖励与视觉结果自然对齐；（2）生成器受奖励监督约束，被迫 "better distinguish successful versus failed execution outcomes under different action conditions"。对比实验显示，集成奖励头的准确率（88–94%）优于独立VLM奖励（Qwen3-VL，84–93.9%），且推理效率更高。

模块三：VLA策略GRPO强化学习

以 OpenVLA-OFT 为基础策略，世界模型作为虚拟环境提供多步观测和二值奖励信号。对步骤级奖励设阈值，转化为任务成功信号，驱动 GRPO 优化。 chunk size 统一设为 24 帧。

模块四：迭代闭环增广

每轮 RL 训练后，将改进策略在真实机器人上产生的新成功和近成功 rollout 追加至 SANS 数据集，再次微调世界模型，进入下一轮迭代，实现 "a comprehensive, iterative joint-optimization framework for both the world model and the VLA policy"。

03 实验

在仿真（LIBERO benchmark：Object / Goal / Spatial 三个任务套件）和真实机器人（Franka 机械臂 + RealSense D435）上进行评估。基线为 OpenVLA-OFT SFT（监督微调版）；上界为在 LIBERO 物理仿真器中进行 RL 的 Oracle 系统。

视频生成质量

指标	数值	说明
SSIM	0.91	结构相似度
PSNR	28.09	峰值信噪比 (dB)
LPIPS	0.045	感知相似度（越低越好）
Visual Outcome Alignment	90%	视觉结果与真实一致率（平均）
Reward Accuracy	87.25%	奖励预测准确率（平均）

LIBERO 任务成功率对比

任务	OpenVLA-OFT SFT（基线）	World-VLA-Loop（本文）	提升
LIBERO-Object-1	~73.9%	~97.9%	+24.0%
LIBERO-Goal-1	~87.6%	~95.7%	+8.1%
LIBERO-Spatial-1	~86.9%	~96.9%	+10.0%
LIBERO Oracle（上界参考）	~98.5%（在真实物理仿真器RL）		—

真实机器人成功率对比

任务	OpenVLA-OFT SFT（基线）	World-VLA-Loop（本文）	提升
Pick and Place Cup	13.3%	36.7%	+23.4%
Pushing Cube	26.7%	40.0%	+13.3%

LIBERO和真实机器人成功率曲线 — **Figure 4：**RL训练步数对应的成功率曲线，涵盖 LIBERO Object / Goal / Spatial 和真实机器人两项任务。可见在所有场景下，World-VLA-Loop 均随训练步数持续提升，最终接近或超过基线水平的天花板。

定性对比：基线vs.迭代优化 — **Figure 5：定性对比。**上方为世界模型生成的rollout，下方为真实机器人执行结果。第一列为SFT基线（夹爪轨迹不精准），第二列为第一轮RL后（动作精准度提升），第三列为第二轮迭代RL后（进一步精细化）。迭代闭环带来的累积改进清晰可见。

消融实验

去除近成功数据：视觉对齐准确率下降约 30%，证明 SANS 数据集对模型精细物理建模能力至关重要。
去除集成奖励头（改用 VLM 奖励）：奖励准确率从 88–94% 降至 84–93.9%，且推理效率显著下降（VLM 推理需要额外计算步骤）。
迭代增益：第二轮 RL 迭代相对第一轮额外带来 +13.3% 相对提升，验证闭环增广策略的有效性。

04 局限性

说明：以下局限性均为论文作者明确陈述（stated by the authors）。

长时域任务（>300 帧）不适用

论文明确指出："Severe quality degradation typically occurs only after the 300-frame mark"，因此 LIBERO-100 等需要 400+ 帧的长时域任务在当前框架下无法支持。自回归视频模型存在"limited context memory and quality drift"的固有缺陷，是该限制的根本原因。

奖励信号稀疏，收敛慢

目前使用的是稀疏终态奖励（任务最终是否成功），而非步骤级中间子目标奖励。作者指出未来需要"transitioning from sparse final-state rewards to step-wise intermediate sub-goals for improved RL convergence"。

视频骨干网络的长期稳定性有待提升

当前基于 Cosmos-Predict 2 的视频模型在帧数超过阈值后存在质量漂移（quality drift）。作者指出需要"exploring video backbones with enhanced long-term stability"和更新的自回归视频生成技术来突破 300 帧限制，以支持更复杂的操作任务。