WorldVLA: Towards Autoregressive Action World Model

01 动机

当前机器人学习中，动作模型（VLA）与世界模型被视为两个相互独立的范式：VLA 从图像和文本预测动作，世界模型从图像和动作预测未来帧。这两者的能力存在天然互补性，但此前没有工作将它们真正统一在同一框架中并验证相互增益。

"We integrate action model and world model into a unified framework, demonstrate that action and image generation mutually enhance each other, and propose an attention mask strategy that selectively masks prior actions during the generation of the current action."

**Figure 1**：三种模型范式对比。(a) 动作模型：从图像理解生成动作；(b) 世界模型：从图像与动作理解生成未来图像；(c) WorldVLA：本文提出的统一动作世界模型，同时具备图像与动作的理解与生成能力。

81.8%WorldVLA 512×512
LIBERO 平均 SR

76.5%OpenVLA 基线
LIBERO 平均 SR

−10%FVD 改善
vs. 纯世界模型（50 帧）

+4%抓取成功率提升
vs. 同骨干动作模型

核心问题：动作块生成中的误差累积

在自回归生成多步动作块（action chunk）时，每一步动作都依赖前一步的输出。若前一步出现误差，后续动作会受到污染，导致整体性能显著下降。实验表明，在不加干预的情况下加入 action chunking 会导致成功率下降 10–50 个百分点。

02 方法

WorldVLA 基于 Chameleon 架构构建，将图像、文本、动作三类 token 统一在单一序列中进行自回归建模。动作模型负责从视觉和语言条件预测动作序列，世界模型在此基础上额外预测下一帧图像，两者共享参数，以多任务方式联合训练。

**Figure 2**：WorldVLA 整体架构。动作模型以文本和历史图像帧为条件生成动作序列；世界模型在动作之后继续预测下一帧图像。两个分支共享同一个自回归 transformer，token 序列在同一上下文窗口内处理。

Tokenizer 设计

图像 tokenizer：VQ-GAN，codebook 大小 8192，压缩比 16×
动作 tokenizer：将连续动作离散化为 256 个 bin（共 7 个 token：3 位置 + 3 角度 + 1 夹爪状态）
文本 tokenizer：BPE，词表大小 65,536

训练配置

动作模型输入：M=2 帧历史图像
Action chunk 大小：K=10（长任务）或 K=5（其他任务）
世界模型预测轮数：N=1
世界模型损失权重：α=0.04

关键创新：Attention Mask 策略

论文针对 action chunk 自回归生成中的误差累积问题，提出选择性 attention mask：在生成当前动作 token 时，遮盖（mask）同一 chunk 中此前已生成的动作 token，使每个动作仅依赖视觉和文本输入，而非依赖前序动作。

Attention Mask 配置对比 — **Figure 3**：三种 attention mask 配置。(a) 默认因果 mask 的动作模型；(b) 本文提出的、对前序动作选择性遮盖的动作模型；(c) 世界模型沿用标准因果 attention。

动作与世界模型的相互增强

论文从两个维度验证互利关系：（1）加入世界模型预测任务后，动作模型的抓取成功率提升 4%，说明预测未来视觉状态有助于学习更优的动作策略；（2）世界模型以动作为条件（action world model）相比无动作条件的纯世界模型，在 LIBERO 数据集上 FVD 降低约 10%（50 帧评估），说明动作信息改善了未来帧预测质量。

03 实验

主要在 LIBERO 基准上评估，涵盖 Spatial、Object、Goal、Long 四个子任务，指标为成功率（SR）。同时在 LIBERO 上评估世界模型质量（FVD、LPIPS）。

Table 2：动作模型性能对比（LIBERO）

Model	Spatial SR	Object SR	Goal SR	Long SR	Average SR
OpenVLA（基线）	84.7%	88.4%	79.2%	53.7%	76.5%
WorldVLA 256×256	85.6%	89.0%	82.6%	59.0%	79.1%
WorldVLA 512×512	87.6%	96.2%	83.4%	60.0%	81.8%

Table 4：世界模型生成质量（LIBERO）

Model	FVD↓（10 帧）	FVD↓（50 帧）	LPIPS↓（10 帧）	LPIPS↓（50 帧）
纯世界模型（World Model only）	250.0	718.6	11.97	15.60
动作世界模型（Action World Model）	255.1	674.1	11.94	15.44

定性结果对比 — **Figure 4**：定性可视化对比。上方为纯动作模型的执行结果，下方为 WorldVLA（动作世界模型）的执行结果，展示世界模型集成如何改善抓取任务的成功率。

消融实验（Ablation）

Table 3 分析了各组件对动作模型性能的影响：

配置	Goal SR	Object SR	Spatial SR	Long SR	Average SR
仅动作（Action only）	67.3%	82.9%	77.8%	23.0%	62.8%
+世界模型（+World model）	73.1%	88.0%	80.2%	27.3%	67.2%
+Action chunking（无 mask）	79.6%	82.9%	36.7%	16.9%	54.0%
+Action chunking + attention mask	84.4%	90.9%	81.8%	49.3%	76.6%
完整模型（Full model）	85.1%	90.9%	84.0%	52.4%	78.1%

关键发现：仅加入 action chunking（不加 mask）会导致平均 SR 从 67.2% 骤降至 54.0%（尤其 Spatial SR 从 80.2% 跌至 36.7%）；加入 attention mask 后恢复至 76.6%，再结合世界模型提升至 78.1%。

Chunk 长度消融 — **Figure 6**：动作块长度消融实验。展示在不同 chunk size 下，朴素自回归与本文 attention mask 策略之间的性能对比。

历史帧数量分析（Table 5）

在启用 action chunking 的条件下：1 帧输入 SR 为 74.0%；2 帧输入 SR 为 84.4%；4 帧输入 SR 为 84.7%。选用 2 帧作为默认配置，在性能与计算效率之间取得最优平衡。

04 局限性

Note：以下局限性均为论文作者在 Future Work 小节中明确陈述（stated），非推断。

数据与模型规模尚未充分探索

论文指出 "scaling of both data and model size emerges as a promising avenue"，当前实验规模有限，更大规模训练的潜力尚待验证。

离散图像 tokenizer 的感知表达受限

当前使用的离散图像 tokenizer "exhibits limitations in perceptual expressiveness"，作者建议未来开发 "a unified tokenizer capable of both understanding and generating high-quality visual content"。

辅助动作头（auxiliary action head）尚未引入

论文认为引入 "an auxiliary action head" 有助于进一步增强抓取能力，但当前版本尚未实现。

评估局限于 LIBERO 仿真环境

所有定量实验均在 LIBERO 仿真基准上进行，未在真实机器人硬件上验证泛化性能。（inferred from scope）