Do World Action Models Generalize Better than VLAs? A Robustness Study

01 动机

VLA 策略已在多种机器人任务上取得突出成果，但受训练数据范围限制，面对视觉和语言扰动时表现出明显的脆弱性。世界模型（World Models）被寄望于通过对未来视觉状态的显式预测来弥补这一缺陷，这类以世界模型为基础的策略被称为 World Action Model（WAM）。然而，WAM 相比 VLA 究竟是否真正拥有更强的泛化能力，此前缺乏系统性的实证研究。

"We conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations."

RoboTwin 2.0-Plus 扰动示例 — **图1：RoboTwin 2.0-Plus 上的七类扰动示例。**从左到右依次为：原始（无扰动）、摄像机视角变化（Camera: L1–L4）、光照变化（Light: C1+C3）、场景背景变化（Background）、机器人初始关节位姿（Robot: Joint+Gripper）、语言指令改写（Language: B1+B2）、图像噪声（Noise: N1–N5）和场景布局干扰（Layout: O1+O2）。图示任务为"Click the bell"，语言扰动版本为"Press down on the service bell"。

74.2%LingBot-VA 在 RoboTwin 2.0-Plus 的综合成功率（所有扰动平均）

82.2%Cosmos-Policy 在 LIBERO-Plus 的综合成功率（所有扰动平均）

4.8×WAM 推理延迟相较于 π0.5 的最低倍数（GE-Act vs π0.5）

7类扰动维度：摄像机、机器人、语言、光照、背景、噪声、布局

核心问题

本研究聚焦于以下四个研究问题：

RQ 1. 基于 WAM 的策略对扰动是否具有鲁棒性？
RQ 2. WAM 的性能优势是否在不同扰动类型上保持一致？
RQ 3. 如何解释 VLA 与 WAM 之间的性能差异？
RQ 4. WAM 的推理速度特性如何，与 VLA 相比差距有多大？

02 方法

本研究并非提出新方法，而是构建新的评估基准并系统地对比现有 WAM 与 VLA 方法。核心贡献包括：（1）提出 RoboTwin 2.0-Plus 基准；（2）在两个互补基准上对 5 类 VLA 和 6 类 WAM 进行统一评测；（3）从架构设计、训练数据和推理速度三个维度分析二者差异。

评测基准设计

作者在原有基准上引入七类系统性扰动，构建了两个互补评测平台：

LIBERO-Plus：单臂（7-DoF Franka Panda）操作任务，双视角摄像头（256×256），七类扰动，基于已有开源框架。
RoboTwin 2.0-Plus（本文新增）：双臂协作（Aloha-Agilex 平台）操作任务，三摄像头（320×240），遵循与 LIBERO-Plus 相同的扰动协议，专用于评估开源 RoboTwin 2.0 checkpoint。

七类扰动轴为：摄像机视角（Camera）、机器人初始位姿（Robot）、语言指令改写（Language）、光照条件（Light）、背景纹理（Background）、图像噪声（Noise）、干扰物布局（Layout）。

WAM 与 VLA 的关键区别

VLA 策略

以 VLM 为骨干，基于静态图文数据预训练。典型预测形式为 p_θ(a_t | h_t)，直接从当前状态预测动作。需要大量多样化的跨机器人数据和视频数据来隐式习得物理动态先验。代表模型：π0、π0.5、OpenVLA-OFT、X-VLA、RIPT-VLA。

WAM 策略

以大规模视频生成模型（如 Cosmos-Predict2、Wan2.x 系列）为骨干，预训练阶段即学习 p_φ(h_t+1 | h_t)。动作生成采用逆动态模型（IDM）范式 g_ψ(a_t | h_t, h_t+1)，或联合去噪生成视觉状态与动作。代表模型：Cosmos-Policy、LingBot-VA、GE-Act、DreamZero、GigaWorld-Policy、Fast-WAM。

WAM 分类汇总（Table 1 精简版）

模型	参数量	骨干模型	Pretrain Free	Causal Pred.	AR Gen.
VPP	1.5B	Stable Video Diffusion	✗	✓	✗
GE-Act	2.2B	LTX-Video-2B	✗	✗	✓
Cosmos-Policy	2B	Cosmos-Predict2-2B	✓	✗	✗
LingBot-VA	5.3B	Wan2.2-5B	✗	✓	✓
DreamZero	14B	Wan2.1-14B	✗	✗	✓
GigaWorld-Policy	>5B	Wan2.2-5B	✗	✗	✗
Fast-WAM	6B	Wan2.2-5B	✓	✗	✗

MOT = mixture-of-transformers；Causal Pred. = 动作预测以生成的视觉状态为条件（或反之）；AR Gen. = 自回归生成；Pretrain Free = 无需具身预训练阶段。

03 实验

在 RoboTwin 2.0-Plus 和 LIBERO-Plus 两个基准上对 VLA、VLA+WM 混合和 WAM 方法进行全面评测，所有模型使用各自公开的 checkpoint，采用单一统一模型跨任务评估。

RQ 1 & 2：WAM 鲁棒性评测结果（RoboTwin 2.0-Plus）

RoboTwin 2.0-Plus 评测结果（Table 3） — **Table 3：RoboTwin 2.0-Plus 评测结果。**Original 列为无扰动原始 RoboTwin 2.0 Easy 设置的成功率，Total 列为七类扰动的平均成功率。LingBot-VA 以 74.2% 的综合成功率排名第一，在五类扰动中居首；π0.5 综合成功率 58.6%，Fast-WAM 72.7% 排名第二。

模型	类型	Original	Camera	Robot	Lang.	Light	BG	Noise	Layout	Total
π0.5	VLA	78.4	45.6	27.6	74.4	49.6	64.9	56.8	58.6	58.6
X-VLA	VLA	65.6	23.2	65.2	64.4	63.1	49.7	34.8	53.1	53.1
MOTUS	VLA+WM	87.0	21.6	85.0	83.2	84.6	84.4	43.1	82.8	71.5
LingBot-VA	WAM	92.1	28.9	36.2	87.3	89.0	88.8	80.9	87.9	74.2
Fast-WAM	WAM	91.2	30.4	53.2	86.7	88.4 (est.)	—	76.4	83.2	72.7

LIBERO-Plus 鲁棒性评测结果（Table 4 精简）

LIBERO-Plus 评测结果（Table 4） — **Table 4：LIBERO-Plus 评测结果。**π0.5 以 85.7% 的综合成功率领先所有模型；Cosmos-Policy 82.2% 和 GE-Act 80.3% 是最优的两个 WAM；Fast-WAM 在仅使用干净演示数据训练时综合成功率仅 51.5%（原始基准 97.6%），下降约 46 个点，揭示了训练数据多样性的关键作用。

模型	类型	Original	Camera	Robot	Light	BG	Noise	Layout	Total
π0	VLA	94.2	13.8	6.0	85.0	81.4	79.0	68.9	53.6
π0.5	VLA	96.9	75.4	77.5	96.9	94.6	89.7	85.7	85.7
UniVLA	VLA	95.2	1.8	46.2	69.0	81.0	21.2	31.9	42.9
VLA-JEPA	VLA+WM	97.2	64.2	67.7	91.8	93.4	65.8	83.9	77.9
GE-Act	WAM	94.4	60.7	77.0	95.8	86.0	90.9	80.2	80.3
Cosmos-Policy	WAM	98.5	75.8	63.3	96.5	88.9	92.7	82.2	82.2
Fast-WAM	WAM	97.6	16.4	44.5	78.2	53.7	37.7	60.7	51.5

定性分析：Cosmos-Policy 的未来帧预测

Cosmos-Policy 在不同扰动下的未来图像预测（Figure 3） — **图3：Cosmos-Policy 在 LIBERO-Plus 扰动下的未来图像预测。**展示噪声（Noise）、光照（Light）、背景（Background）三类扰动下的 Ground Truth（GT）和预测图像（Pred.）。在噪声和光照扰动下，Cosmos-Policy 能有效预测机械臂运动；但在背景扰动下，预测图像出现严重空间失真和色彩不一致，这可能导致动作生成的准确性下降。

定性案例：RoboTwin 2.0-Plus 对比

RoboTwin 2.0-Plus 典型案例对比（Figure 2） — **图2：RoboTwin 2.0-Plus 上 π0.5 与 LingBot-VA 的典型案例对比。**(a) 任务：用锤子敲打积木，噪声扰动 N3：π0.5 与锤子碰撞导致任务失败，LingBot-VA 成功完成。(b) 任务：传递积木，布局扰动：π0.5 在靠近过程中与红色积木碰撞，LingBot-VA 成功完成。(c) 任务：排列 RGB 积木，光照扰动 L1–L4：π0.5 因位姿对齐失败而无法抓取第一个红色积木，LingBot-VA 成功完成全部三个案例。

RQ 4：推理速度对比（Table 5）

模型	动作块大小	推理时间（wall clock）	相对 π0.5 倍数
π0.5	50	63 ms	1.0×
X-VLA	30	195 ms	3.1×
Fast-WAM	16	190 ms*	3.0×
GE-Act	36	300 ms	4.8×
Cosmos-Policy	16	390 ms	6.2×
LingBot-VA (RW)	32	480 ms	7.6×
MOTUS	16	1175 ms	18.6×
LingBot-VA (RT)	32	5230 ms	83.0×

*Fast-WAM 延迟数据来自 Yuan et al. [2026]，未在本文硬件上重新测量。LingBot-VA(RW) = 实际部署配置（3步去噪视觉 + 5步去噪动作）；LingBot-VA(RT) = RoboTwin 2.0 评测配置（25步 + 50步），达到 5.2 秒/推理。

Fast-WAM：训练数据多样性的自然实验

关键发现：Fast-WAM 在 RoboTwin 2.0-Plus（使用 27.5k 干净+域随机化演示）上表现高度鲁棒：原始基准 91.2%，综合 72.7%，仅下降约 18 个点。同一架构在 LIBERO-Plus（仅使用干净演示训练）上几乎崩塌：原始基准 97.6%，综合仅 51.5%，下降约 46 个点。这表明视频时空先验"必要但不充分"——任务特定训练数据的多样性对鲁棒性同样至关重要。

04 局限性

说明：以下局限性部分在论文结论部分明确陈述，部分可从实验设计和分析中推断，已分别标注。

推理延迟高，无法满足实时部署需求（论文明确陈述）

WAM 推理至少比 π0.5 慢 4.8 倍（GE-Act: 300 ms vs. π0.5: 63 ms），最慢的 LingBot-VA 在 RoboTwin 评测配置下达到 5.2 秒/推理（83× 倍）。"This underscores a key practical challenge for WAMs and highlights the need for further research to improve their inference efficiency, enabling deployment in scenarios that require rapid response time or real-time interaction with dynamic environments."

摄像机视角和机器人初始位姿扰动仍是 WAM 的薄弱环节（论文明确陈述）

WAM 在噪声、光照、布局扰动上鲁棒性强，但"camera viewpoint and robot initial-state perturbations remain challenging for WAMs, indicating that video priors offer limited benefit when the geometric configuration of the scene is altered." LingBot-VA 在摄像机扰动上的成功率仅 28.9%，与 VLA 相差无几。

训练数据多样性对 WAM 鲁棒性同样关键（论文明确陈述）

Fast-WAM 在仅使用干净演示的 LIBERO 训练集上，鲁棒性相比使用域随机化数据的 RoboTwin 版本大幅下降（综合成功率 51.5% vs. 72.7%）。"the WAM video prior is necessary but not sufficient—task-specific training-data diversity remains essential." 尤其是联合去噪架构（joint-denoising，如 Fast-WAM）对训练数据多样性的依赖程度可能高于 IDM 风格的 WAM（如 LingBot-VA）。

评测覆盖范围受限于开源 checkpoint（从实验设计推断）

DreamZero（14B Wan2.1 骨干）因其专有预训练数据集和极高计算成本（推理预热超过 15 分钟）被排除在评测外；GigaWorld-Policy 的 checkpoint 尚未公开。本文评测因此未能涵盖全部已知 WAM，结论的普适性有所局限。

π0.5 在 LIBERO-Plus 上的鲁棒性与 WAM 相当甚至更优（论文明确陈述）

π0.5 在 LIBERO-Plus 上以 85.7% 的综合成功率领先所有方法，包括最优 WAM（Cosmos-Policy 82.2%）。这说明 VLA 通过引入多样化机器人数据和网络视频数据进行训练，同样可以达到与 WAM 相当的鲁棒性，WAM 的优势并非在所有场景下都能体现。