机器人 · Robotics · arXiv 2026

Do World Action Models Generalize Better than VLAs? A Robustness Study

WAM 与 VLA 鲁棒性的系统对比研究
Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli et al.  ·  Huawei Technologies & University of Toronto

本文在两个新增扰动基准(LIBERO-Plus 和 RoboTwin 2.0-Plus)上系统对比了最新 WAM(World Action Model)与 VLA(Vision-Language-Action)策略在视觉和语言扰动下的鲁棒性。实验表明,WAM 凭借视频预训练的时空先验在噪声、光照、布局扰动上表现出显著优势,但在推理速度上至少慢 π0.5 的 4.8 倍,真实部署仍面临挑战。

提交:2026年3月 最终版:2026年4月30日 cs.RO 📄 arXiv:2603.22078 PDF
world action model VLA robustness benchmark video pre-training robot manipulation LIBERO-Plus RoboTwin 2.0-Plus inference latency 时空先验 扰动鲁棒性

01 动机

VLA 策略已在多种机器人任务上取得突出成果,但受训练数据范围限制,面对视觉和语言扰动时表现出明显的脆弱性。世界模型(World Models)被寄望于通过对未来视觉状态的显式预测来弥补这一缺陷,这类以世界模型为基础的策略被称为 World Action Model(WAM)。然而,WAM 相比 VLA 究竟是否真正拥有更强的泛化能力,此前缺乏系统性的实证研究。

"We conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations."
RoboTwin 2.0-Plus 扰动示例
图1:RoboTwin 2.0-Plus 上的七类扰动示例。从左到右依次为:原始(无扰动)、摄像机视角变化(Camera: L1–L4)、光照变化(Light: C1+C3)、场景背景变化(Background)、机器人初始关节位姿(Robot: Joint+Gripper)、语言指令改写(Language: B1+B2)、图像噪声(Noise: N1–N5)和场景布局干扰(Layout: O1+O2)。图示任务为"Click the bell",语言扰动版本为"Press down on the service bell"。
74.2%LingBot-VA 在 RoboTwin 2.0-Plus 的综合成功率(所有扰动平均)
82.2%Cosmos-Policy 在 LIBERO-Plus 的综合成功率(所有扰动平均)
4.8×WAM 推理延迟相较于 π0.5 的最低倍数(GE-Act vs π0.5)
7类扰动维度:摄像机、机器人、语言、光照、背景、噪声、布局

核心问题

本研究聚焦于以下四个研究问题:

02 方法

本研究并非提出新方法,而是构建新的评估基准并系统地对比现有 WAM 与 VLA 方法。核心贡献包括:(1)提出 RoboTwin 2.0-Plus 基准;(2)在两个互补基准上对 5 类 VLA 和 6 类 WAM 进行统一评测;(3)从架构设计、训练数据和推理速度三个维度分析二者差异。

评测基准设计

作者在原有基准上引入七类系统性扰动,构建了两个互补评测平台:

七类扰动轴为:摄像机视角(Camera)、机器人初始位姿(Robot)、语言指令改写(Language)、光照条件(Light)、背景纹理(Background)、图像噪声(Noise)、干扰物布局(Layout)。

WAM 与 VLA 的关键区别

VLA 策略

以 VLM 为骨干,基于静态图文数据预训练。典型预测形式为 pθ(at | ht),直接从当前状态预测动作。需要大量多样化的跨机器人数据和视频数据来隐式习得物理动态先验。代表模型:π0、π0.5、OpenVLA-OFT、X-VLA、RIPT-VLA。

WAM 策略

以大规模视频生成模型(如 Cosmos-Predict2、Wan2.x 系列)为骨干,预训练阶段即学习 pφ(ht+1 | ht)。动作生成采用逆动态模型(IDM)范式 gψ(at | ht, ht+1),或联合去噪生成视觉状态与动作。代表模型:Cosmos-Policy、LingBot-VA、GE-Act、DreamZero、GigaWorld-Policy、Fast-WAM。

WAM 分类汇总(Table 1 精简版)

模型参数量骨干模型Pretrain FreeCausal Pred.AR Gen.
VPP1.5BStable Video Diffusion
GE-Act2.2BLTX-Video-2B
Cosmos-Policy2BCosmos-Predict2-2B
LingBot-VA5.3BWan2.2-5B
DreamZero14BWan2.1-14B
GigaWorld-Policy>5BWan2.2-5B
Fast-WAM6BWan2.2-5B

MOT = mixture-of-transformers;Causal Pred. = 动作预测以生成的视觉状态为条件(或反之);AR Gen. = 自回归生成;Pretrain Free = 无需具身预训练阶段。

03 实验

在 RoboTwin 2.0-Plus 和 LIBERO-Plus 两个基准上对 VLA、VLA+WM 混合和 WAM 方法进行全面评测,所有模型使用各自公开的 checkpoint,采用单一统一模型跨任务评估。

RQ 1 & 2:WAM 鲁棒性评测结果(RoboTwin 2.0-Plus)

RoboTwin 2.0-Plus 评测结果(Table 3)
Table 3:RoboTwin 2.0-Plus 评测结果。Original 列为无扰动原始 RoboTwin 2.0 Easy 设置的成功率,Total 列为七类扰动的平均成功率。LingBot-VA 以 74.2% 的综合成功率排名第一,在五类扰动中居首;π0.5 综合成功率 58.6%,Fast-WAM 72.7% 排名第二。
模型类型OriginalCameraRobotLang.LightBGNoiseLayoutTotal
π0.5VLA78.445.627.674.449.664.956.858.658.6
X-VLAVLA65.623.265.264.463.149.734.853.153.1
MOTUSVLA+WM87.021.685.083.284.684.443.182.871.5
LingBot-VAWAM92.128.936.287.389.088.880.987.974.2
Fast-WAMWAM91.230.453.286.788.4 (est.)76.483.272.7

LIBERO-Plus 鲁棒性评测结果(Table 4 精简)

LIBERO-Plus 评测结果(Table 4)
Table 4:LIBERO-Plus 评测结果。π0.5 以 85.7% 的综合成功率领先所有模型;Cosmos-Policy 82.2% 和 GE-Act 80.3% 是最优的两个 WAM;Fast-WAM 在仅使用干净演示数据训练时综合成功率仅 51.5%(原始基准 97.6%),下降约 46 个点,揭示了训练数据多样性的关键作用。
模型类型OriginalCameraRobotLightBGNoiseLayoutTotal
π0VLA94.213.86.085.081.479.068.953.6
π0.5VLA96.975.477.596.994.689.785.785.7
UniVLAVLA95.21.846.269.081.021.231.942.9
VLA-JEPAVLA+WM97.264.267.791.893.465.883.977.9
GE-ActWAM94.460.777.095.886.090.980.280.3
Cosmos-PolicyWAM98.575.863.396.588.992.782.282.2
Fast-WAMWAM97.616.444.578.253.737.760.751.5

定性分析:Cosmos-Policy 的未来帧预测

Cosmos-Policy 在不同扰动下的未来图像预测(Figure 3)
图3:Cosmos-Policy 在 LIBERO-Plus 扰动下的未来图像预测。展示噪声(Noise)、光照(Light)、背景(Background)三类扰动下的 Ground Truth(GT)和预测图像(Pred.)。在噪声和光照扰动下,Cosmos-Policy 能有效预测机械臂运动;但在背景扰动下,预测图像出现严重空间失真和色彩不一致,这可能导致动作生成的准确性下降。

定性案例:RoboTwin 2.0-Plus 对比

RoboTwin 2.0-Plus 典型案例对比(Figure 2)
图2:RoboTwin 2.0-Plus 上 π0.5 与 LingBot-VA 的典型案例对比。(a) 任务:用锤子敲打积木,噪声扰动 N3:π0.5 与锤子碰撞导致任务失败,LingBot-VA 成功完成。(b) 任务:传递积木,布局扰动:π0.5 在靠近过程中与红色积木碰撞,LingBot-VA 成功完成。(c) 任务:排列 RGB 积木,光照扰动 L1–L4:π0.5 因位姿对齐失败而无法抓取第一个红色积木,LingBot-VA 成功完成全部三个案例。

RQ 4:推理速度对比(Table 5)

模型动作块大小推理时间(wall clock)相对 π0.5 倍数
π0.55063 ms1.0×
X-VLA30195 ms3.1×
Fast-WAM16190 ms*3.0×
GE-Act36300 ms4.8×
Cosmos-Policy16390 ms6.2×
LingBot-VA (RW)32480 ms7.6×
MOTUS161175 ms18.6×
LingBot-VA (RT)325230 ms83.0×

*Fast-WAM 延迟数据来自 Yuan et al. [2026],未在本文硬件上重新测量。LingBot-VA(RW) = 实际部署配置(3步去噪视觉 + 5步去噪动作);LingBot-VA(RT) = RoboTwin 2.0 评测配置(25步 + 50步),达到 5.2 秒/推理。

Fast-WAM:训练数据多样性的自然实验

关键发现:Fast-WAM 在 RoboTwin 2.0-Plus(使用 27.5k 干净+域随机化演示)上表现高度鲁棒:原始基准 91.2%,综合 72.7%,仅下降约 18 个点。同一架构在 LIBERO-Plus(仅使用干净演示训练)上几乎崩塌:原始基准 97.6%,综合仅 51.5%,下降约 46 个点。这表明视频时空先验"必要但不充分"——任务特定训练数据的多样性对鲁棒性同样至关重要。

04 局限性

说明:以下局限性部分在论文结论部分明确陈述,部分可从实验设计和分析中推断,已分别标注。
推理延迟高,无法满足实时部署需求(论文明确陈述)

WAM 推理至少比 π0.5 慢 4.8 倍(GE-Act: 300 ms vs. π0.5: 63 ms),最慢的 LingBot-VA 在 RoboTwin 评测配置下达到 5.2 秒/推理(83× 倍)。"This underscores a key practical challenge for WAMs and highlights the need for further research to improve their inference efficiency, enabling deployment in scenarios that require rapid response time or real-time interaction with dynamic environments."

摄像机视角和机器人初始位姿扰动仍是 WAM 的薄弱环节(论文明确陈述)

WAM 在噪声、光照、布局扰动上鲁棒性强,但"camera viewpoint and robot initial-state perturbations remain challenging for WAMs, indicating that video priors offer limited benefit when the geometric configuration of the scene is altered." LingBot-VA 在摄像机扰动上的成功率仅 28.9%,与 VLA 相差无几。

训练数据多样性对 WAM 鲁棒性同样关键(论文明确陈述)

Fast-WAM 在仅使用干净演示的 LIBERO 训练集上,鲁棒性相比使用域随机化数据的 RoboTwin 版本大幅下降(综合成功率 51.5% vs. 72.7%)。"the WAM video prior is necessary but not sufficient—task-specific training-data diversity remains essential." 尤其是联合去噪架构(joint-denoising,如 Fast-WAM)对训练数据多样性的依赖程度可能高于 IDM 风格的 WAM(如 LingBot-VA)。

评测覆盖范围受限于开源 checkpoint(从实验设计推断)

DreamZero(14B Wan2.1 骨干)因其专有预训练数据集和极高计算成本(推理预热超过 15 分钟)被排除在评测外;GigaWorld-Policy 的 checkpoint 尚未公开。本文评测因此未能涵盖全部已知 WAM,结论的普适性有所局限。

π0.5 在 LIBERO-Plus 上的鲁棒性与 WAM 相当甚至更优(论文明确陈述)

π0.5 在 LIBERO-Plus 上以 85.7% 的综合成功率领先所有方法,包括最优 WAM(Cosmos-Policy 82.2%)。这说明 VLA 通过引入多样化机器人数据和网络视频数据进行训练,同样可以达到与 WAM 相当的鲁棒性,WAM 的优势并非在所有场景下都能体现。