机器人 · Robotics · arXiv 2025

RynnVLA-002

A Unified Vision-Language-Action and World Model
Jun Cen, Siteng Huang, Yuqian Yuan, Kehan Li, Hangjie Yuan, Chaohui Yu, Bohan Hou, Yuming Jiang, Jiayan Guo, Xin Li, Hao Luo, Fan Wang, Deli Zhao, Hao Chen  ·  DAMO Academy (Alibaba Group), Hupan Lab, Zhejiang University

将 Vision-Language-Action (VLA) 模型与 World Model 统一于同一个 Chameleon 式自回归主干中,使两者在共享 token 空间内相互增强:VLA 提升视觉理解以改善图像生成质量,World Model 赋予 VLA "想象力"从而提高动作精度。无需大规模机器人预训练,在 LIBERO 仿真基准上即达到 97.4% 成功率,真实机器人实验成功率提升 50%

arXiv 2511.17502 · 2025-11 LIBERO 97.4% 成功率 真实世界 +50% 成功率 📄 arXiv:2511.17502
VLA world model 机器人操作 action chunking autoregressive LIBERO benchmark image tokenization Action Transformer

01 动机

VLA 模型与 World Model 各有所长,却长期相互割裂:前者能生成动作,却缺乏对世界物理动态的内部"想象";后者能预测未来视觉状态,却无法直接输出控制指令。这种"功能鸿沟"限制了两类模型在真实机器人场景中的潜力。

"RynnVLA-002 internalizes the VLA objective and the action-conditioned world-modeling objective in one Chameleon-style autoregressive backbone with a shared token space."
Teaser: VLA vs World Model vs Action World Model
Figure 1:左:标准 VLA 仅输出动作,无法预测下一帧图像;中:World Model 仅预测图像,无法生成动作;右:本文提出的 Action World Model (RynnVLA-002) 在同一模型内同时完成动作生成与视觉预测,两个目标在训练中相互强化。
97.4%LIBERO 平均成功率(无预训练)
+50%真实机器人整体成功率提升
90.0%真实多目标 Place block 任务成功率
65,536统一词汇表 token 数量

现有 VLA 方法(如 RT-2)将动作仅置于输出端,模型内部无法建立对动作效果的推理;而现有 World Model(如 Genie)只预测视觉状态,缺乏直接的机器人控制能力。RynnVLA-002 的核心洞察是:VLA 的精准动作能力可以改善 World Model 的视觉一致性,World Model 的预见性又能反哺 VLA 的动作决策,两者在同一主干内协同训练即可实现"1+1>2"的效果。

02 方法

RynnVLA-002 采用共享自回归 Transformer 主干,将视觉 token(VQ-GAN 编码)、文本 token(BPE)、状态/动作 token(连续值离散化为 256 bins)统一到 65,536 大小的词汇表中,分别以两种序列格式进行训练:VLA 序列生成动作,World Model 序列预测下一帧图像。

RynnVLA-002 系统总览
Figure 2:RynnVLA-002 总体架构。左侧:VLA 数据流——输入语言目标、本体感知状态、历史观测图像,输出动作序列;右侧:World Model 数据流——输入历史图像帧与动作,预测下一时刻图像。两路共享同一图像 tokenizer/decoder(VQ-GAN),实现图像理解与生成的统一。

统一 Token 化策略

图像通过 VQ-GAN 压缩(压缩比 16,codebook 大小 8192)编码为离散视觉 token;文本采用 BPE;连续状态与动作值均离散化为 256 bins 后编码。

Action Chunk 生成:注意力掩码改进

在标准自回归生成中,动作 chunk 内的前一个动作 token 会影响后续动作 token,导致误差累积。本文提出修改注意力掩码,使当前动作仅依赖文本与视觉输入,禁止访问前序动作 token,从而显著缓解误差传播(尤其在 K=10 的长动作块中效果明显)。

注意力掩码策略对比
Figure 3:三种注意力掩码策略对比。左:默认 VLA(因果掩码,动作间存在依赖);中:本文 VLA(动作 token 仅依赖语言与视觉);右:World Model 掩码(图像块内双向注意力)。改进掩码有效隔离了动作间误差传播。

Action Transformer Head:连续动作生成

在离散自回归主干之上,额外引入轻量级连续 Action Transformer,利用双向注意力并行生成平滑连续动作序列,具有以下优势:

03 实验

在 LIBERO 仿真基准(四个子任务:Spatial / Object / Goal / Long)和真实 LeRobot SO100 机械臂(两类 pick-and-place 任务,各约 248-249 条示范)上进行评测,与有/无预训练的多个 VLA baseline 对比。

LIBERO 仿真结果

方法预训练LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
OpenVLA84.788.479.253.776.5
π₀98.698.898.298.898.6
RynnVLA-002-Discrete91.297.493.491.293.3
RynnVLA-002-Continuous96.499.896.494.497.4

"RynnVLA-002 remains competitive with these pretrained baselines and outperforms most non-pretrained methods",在无任何大规模机器人预训练的条件下达到 97.4% 平均成功率。

真实机器人结果

任务场景RynnVLA-002(无预训练)
Place block inside circle单目标90.0%
Place block inside circle多目标90.0%
Place block inside circle有干扰物80.0%
Place strawberries into cup多目标80.0%
真实机器人任务场景
Figure 4:真实世界评测场景。上行:Place block inside circle(单目标、多目标、有干扰物三种设置);下行:Place strawberries into cup(多目标)。所有实验均使用 SO100 机械臂,每任务约 248-249 条示范数据。

消融实验:World Model 与 VLA 的互增益

通过系统消融验证了核心设计的有效性:

World Model 改善注意力可视化
Figure 5:可视化展示加入 World Model 训练后,模型对目标区域的注意力明显集中,减少了对无关背景的干扰,从而提升了动作决策的精准性。
性能对比图
Figure 6(综合):各 baseline 与 RynnVLA-002 在 LIBERO 四个子任务上的对比,以及真实机器人六种设置下的成功率对比。RynnVLA-002 在所有真实机器人设置中取得最优整体表现。

04 局限性

Note:以下局限性均为作者在论文中明确陈述(stated by the authors)。
真实评测场景覆盖有限

"Current real-world evaluation focuses on SO100 pick-and-place manipulation",仅测试了两类抓放任务,尚未在更广泛的机器人平台(如双臂、移动机器人)或更复杂操作任务(如工具使用、精细装配)上进行验证。作者明确表示需要"more robot platforms, more sophisticated manipulation tasks"。

训练成本高,单任务耗时约四天

"training a single real-world task currently takes roughly four days",计算开销较大,限制了快速迭代与大规模部署。

自回归图像 token 生成效率瓶颈

当前采用逐 token 自回归方式生成图像,推理效率受限(离散动作模式下最低仅 2.5 Hz)。作者指出未来需探索"more efficient image-token generation"方案,如并行解码或连续表示。