机器人 · Robotics · arXiv 2025

WorldVLA: Towards Autoregressive Action World Model

将 VLA 与世界模型统一在单一自回归框架中,双向增强动作生成与环境预测
Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

WorldVLA 将视觉-语言-动作模型(VLA)与世界模型集成在同一自回归架构中,实现动作预测与未来帧预测的相互增强。针对动作块(action chunk)自回归生成时的误差累积问题,论文提出一种选择性 attention mask 策略,在 LIBERO 基准上将平均成功率(SR)提升至 81.8%,相比 OpenVLA 基线(76.5%)提升显著。

📅 2025 年 6 月 🤖 机器人操控 📊 LIBERO Benchmark 📄 arXiv:2506.21539 PDF
VLA world model autoregressive action chunking attention mask robot manipulation LIBERO 机器人操控

01 动机

当前机器人学习中,动作模型(VLA)与世界模型被视为两个相互独立的范式:VLA 从图像和文本预测动作,世界模型从图像和动作预测未来帧。这两者的能力存在天然互补性,但此前没有工作将它们真正统一在同一框架中并验证相互增益。

"We integrate action model and world model into a unified framework, demonstrate that action and image generation mutually enhance each other, and propose an attention mask strategy that selectively masks prior actions during the generation of the current action."
三种模型范式对比
Figure 1:三种模型范式对比。(a) 动作模型:从图像理解生成动作;(b) 世界模型:从图像与动作理解生成未来图像;(c) WorldVLA:本文提出的统一动作世界模型,同时具备图像与动作的理解与生成能力。
81.8%WorldVLA 512×512
LIBERO 平均 SR
76.5%OpenVLA 基线
LIBERO 平均 SR
−10%FVD 改善
vs. 纯世界模型(50 帧)
+4%抓取成功率提升
vs. 同骨干动作模型

核心问题:动作块生成中的误差累积

在自回归生成多步动作块(action chunk)时,每一步动作都依赖前一步的输出。若前一步出现误差,后续动作会受到污染,导致整体性能显著下降。实验表明,在不加干预的情况下加入 action chunking 会导致成功率下降 10–50 个百分点。

02 方法

WorldVLA 基于 Chameleon 架构构建,将图像、文本、动作三类 token 统一在单一序列中进行自回归建模。动作模型负责从视觉和语言条件预测动作序列,世界模型在此基础上额外预测下一帧图像,两者共享参数,以多任务方式联合训练。

WorldVLA 整体架构
Figure 2:WorldVLA 整体架构。动作模型以文本和历史图像帧为条件生成动作序列;世界模型在动作之后继续预测下一帧图像。两个分支共享同一个自回归 transformer,token 序列在同一上下文窗口内处理。

Tokenizer 设计

  • 图像 tokenizer:VQ-GAN,codebook 大小 8192,压缩比 16×
  • 动作 tokenizer:将连续动作离散化为 256 个 bin(共 7 个 token:3 位置 + 3 角度 + 1 夹爪状态)
  • 文本 tokenizer:BPE,词表大小 65,536

训练配置

  • 动作模型输入:M=2 帧历史图像
  • Action chunk 大小:K=10(长任务)或 K=5(其他任务)
  • 世界模型预测轮数:N=1
  • 世界模型损失权重:α=0.04

关键创新:Attention Mask 策略

论文针对 action chunk 自回归生成中的误差累积问题,提出选择性 attention mask:在生成当前动作 token 时,遮盖(mask)同一 chunk 中此前已生成的动作 token,使每个动作仅依赖视觉和文本输入,而非依赖前序动作。

Attention Mask 配置对比
Figure 3:三种 attention mask 配置。(a) 默认因果 mask 的动作模型;(b) 本文提出的、对前序动作选择性遮盖的动作模型;(c) 世界模型沿用标准因果 attention。

动作与世界模型的相互增强

论文从两个维度验证互利关系:(1)加入世界模型预测任务后,动作模型的抓取成功率提升 4%,说明预测未来视觉状态有助于学习更优的动作策略;(2)世界模型以动作为条件(action world model)相比无动作条件的纯世界模型,在 LIBERO 数据集上 FVD 降低约 10%(50 帧评估),说明动作信息改善了未来帧预测质量。

03 实验

主要在 LIBERO 基准上评估,涵盖 Spatial、Object、Goal、Long 四个子任务,指标为成功率(SR)。同时在 LIBERO 上评估世界模型质量(FVD、LPIPS)。

Table 2:动作模型性能对比(LIBERO)

ModelSpatial SRObject SRGoal SRLong SRAverage SR
OpenVLA(基线)84.7%88.4%79.2%53.7%76.5%
WorldVLA 256×25685.6%89.0%82.6%59.0%79.1%
WorldVLA 512×51287.6%96.2%83.4%60.0%81.8%

Table 4:世界模型生成质量(LIBERO)

ModelFVD↓(10 帧)FVD↓(50 帧)LPIPS↓(10 帧)LPIPS↓(50 帧)
纯世界模型(World Model only)250.0718.611.9715.60
动作世界模型(Action World Model)255.1674.111.9415.44
定性结果对比
Figure 4:定性可视化对比。上方为纯动作模型的执行结果,下方为 WorldVLA(动作世界模型)的执行结果,展示世界模型集成如何改善抓取任务的成功率。

消融实验(Ablation)

Table 3 分析了各组件对动作模型性能的影响:

配置Goal SRObject SRSpatial SRLong SRAverage SR
仅动作(Action only)67.3%82.9%77.8%23.0%62.8%
+世界模型(+World model)73.1%88.0%80.2%27.3%67.2%
+Action chunking(无 mask)79.6%82.9%36.7%16.9%54.0%
+Action chunking + attention mask84.4%90.9%81.8%49.3%76.6%
完整模型(Full model)85.1%90.9%84.0%52.4%78.1%

关键发现:仅加入 action chunking(不加 mask)会导致平均 SR 从 67.2% 骤降至 54.0%(尤其 Spatial SR 从 80.2% 跌至 36.7%);加入 attention mask 后恢复至 76.6%,再结合世界模型提升至 78.1%。

Chunk 长度消融
Figure 6:动作块长度消融实验。展示在不同 chunk size 下,朴素自回归与本文 attention mask 策略之间的性能对比。

历史帧数量分析(Table 5)

在启用 action chunking 的条件下:1 帧输入 SR 为 74.0%;2 帧输入 SR 为 84.4%;4 帧输入 SR 为 84.7%。选用 2 帧作为默认配置,在性能与计算效率之间取得最优平衡。

04 局限性

Note:以下局限性均为论文作者在 Future Work 小节中明确陈述(stated),非推断。
数据与模型规模尚未充分探索

论文指出 "scaling of both data and model size emerges as a promising avenue",当前实验规模有限,更大规模训练的潜力尚待验证。

离散图像 tokenizer 的感知表达受限

当前使用的离散图像 tokenizer "exhibits limitations in perceptual expressiveness",作者建议未来开发 "a unified tokenizer capable of both understanding and generating high-quality visual content"。

辅助动作头(auxiliary action head)尚未引入

论文认为引入 "an auxiliary action head" 有助于进一步增强抓取能力,但当前版本尚未实现。

评估局限于 LIBERO 仿真环境

所有定量实验均在 LIBERO 仿真基准上进行,未在真实机器人硬件上验证泛化性能。(inferred from scope