机器人 · Robotics · arXiv 2025

UniVLA: Unified Vision-Language-Action Model

将视觉、语言与动作统一为离散 token,通过世界模型预训练实现高效跨模态机器人策略学习
Yuqi Wang · Xinghang Li · Wenxuan Wang · Junbo Zhang · Yingyan Li · Yuntao Chen · Xinlong Wang · Zhaoxiang Zhang

UniVLA 以纯自回归 Transformer 将视觉、语言与动作信号编码为统一的离散 token 序列,并设计了两阶段训练策略:先在 622K 视频上进行无动作监督的世界模型后训练,再对下游任务进行策略微调。在 LIBERO 基准上以 95.5% 的平均成功率超越 π₀-FAST 的 85.5%,在 CALVIN 及 SimplerEnv 上也均达到新的最优水平。

8.5B 参数 Transformer 622K 后训练视频 32 × A100 GPUs 📄 arXiv:2506.19850 PDF
VLA vision-language-action 机器人操作 世界模型 自回归建模 离散token CALVIN LIBERO 多模态大模型 策略学习

01 动机

现有 VLA 方法大多采用"后期融合"策略:视觉特征提取与动作生成分处独立模块,难以捕捉跨模态的时序依赖关系。与此同时,有监督的机器人动作数据规模远小于互联网视频数据,策略泛化能力因此受限。如何充分利用海量无标注视频数据并实现视觉-语言-动作的紧密协同,是当前机器人学习面临的核心挑战。

"vision, language, and action are jointly modeled within a unified representation space to facilitate tighter cross-modal integration."
UniVLA 总览
图 1:UniVLA 架构总览。所有模态(语言、视觉、动作)均被转化为统一词汇表中的离散 token,经单一自回归 Transformer 联合建模,支持动作预测、视觉未来帧预测及空间定位等多种任务。
95.5%LIBERO 平均成功率
超越 π₀-FAST 的 85.5%
4.63CALVIN ABCD→D
平均任务链长度(SOTA)
69.8%SimplerEnv WidowX 成功率
vs SpatialVLA 42.7%
81.7%NAVSIM PDMS
仅用单目前视摄像头

02 方法

UniVLA 的核心思想是将所有模态统一为离散 token:视觉通过 VQ 编码器以 8× 空间压缩率离散化,动作通过 FAST 对连续序列施加离散余弦变换(DCT)后编码为 1024 个 token,语言沿用标准 BPE 词汇表。三种模态共享同一词汇表,由特殊分隔符(boi/eoi 标示图像起止,boa/eoa 标示动作起止)明确边界,统一输入 8.5B 参数的自回归 Transformer,训练目标为标准 next-token prediction(cross-entropy loss)。

UniVLA 框架
图 2:两阶段训练框架。第一阶段(世界模型后训练):以 Emu3 预训练权重初始化,在 622K 机器人及通用视频上进行无动作监督的视觉 token 预测;第二阶段(策略微调):在目标任务数据上以双帧交错视觉-动作序列进行动作 token 监督微调。

统一多模态 Tokenization

视觉 token 采用与 Emu3 相同设计的 VQ 编码器,将图像以 8× 压缩率编码为离散 token。动作 token 采用 FAST tokenizer——对连续动作序列施加 DCT 变换后映射至 1024 个离散 token,替换语言词汇表末尾的 1024 个 ID,从而与语言 token 共享同一词汇表,实现真正统一的序列建模。特殊分隔符 boi/eoi(图像起止)和 boa/eoa(动作起止)明确标示模态边界。

两阶段训练:世界模型后训练 + 策略微调

后训练(World Model Post-training):模型以 Emu3 第一阶段预训练权重初始化,在 622K 精心策划的视频(覆盖 RT-1、BridgeV2、DROID 等多个机器人数据集及 Something-Something-V2 等通用视频)上训练,监督信号仅作用于视觉 token,无需动作标注。序列形式为 Sv = {Lt¹, Lv¹, Lv², …, Lvt},语言指令条件化视觉预测,引导模型学习环境因果动态。训练 30K 步,batch size 64,在 32 块 A100 GPU 上耗时 4–5 天。

微调(Policy Fine-tuning):以后训练权重为起点,采用双帧交错的视觉-动作序列,action chunk size 为 10,损失仅作用于动作 token。余弦退火学习率从 8×10⁻⁵ 开始,在各基准上分别训练 8K–20K 步。

多模态能力展示
图 3:UniVLA 的多模态能力展示,包括动作预测、视觉未来帧预测以及空间定位,体现了统一 token 建模框架的通用性——同一模型无需模态专用分支即可处理多种任务类型。

03 实验

在 CALVIN、LIBERO、SimplerEnv 和 NAVSIM 四个基准上与当前最优方法对比,并通过消融实验定量验证各关键组件的贡献。真实机器人实验在 AgileX 双臂平台上进行(3 路 RGB 摄像头,128×128 分辨率,14 维动作向量,chunk size 20),共 8 类操作任务。

LIBERO 基准

方法SpatialObjectGoalLongAverage
UniVLA(本文)95.4%98.8%93.6%94.0%95.5%
π₀-FAST96.4%96.8%88.6%60.2%85.5%
CoT-VLA87.5%91.6%87.6%69.0%81.1%
SpatialVLA88.2%89.9%78.6%55.5%78.1%

CALVIN 基准(平均任务链长度,满分 5)

方法ABC→DABCD→D
UniVLA(本文)4.414.63
RoboVLMs4.254.49
UP-VLA4.084.42
Seer-Large4.28

SimplerEnv(WidowX)& NAVSIM

基准方法成功率 / PDMS
SimplerEnvUniVLA(本文)69.8%
SimplerEnvSpatialVLA42.7%
SimplerEnvRoboVLMs37.5%
SimplerEnvOcto-Small29.5%
NAVSIMUniVLA(单目前视)81.7%

消融:世界模型后训练的贡献

后训练对性能提升贡献最为显著:移除后,LIBERO 整体从 94.2% 降至 48.5%(−45.7 pp),LIBERO-Long 从 89.2% 降至 17.4%(−71.8 pp),CALVIN ABCD→D 从 4.61 降至 1.46(−3.15)。数据效率实验表明:仅使用 10% 训练数据时,UniVLA 在 CALVIN 上仍达 3.19,显著高于 RoboVLMs 的 2.52,体现出世界模型预训练带来的强泛化能力。

真实机器人实验
图 4:真实世界任务示例,包括擦白板、桌面整理、汉堡组装和连接器插入,展示 UniVLA 在 AgileX 双臂机器人平台上的多样化操作能力。

04 局限性

Note: 以下前两条为论文作者明确陈述(stated by the authors);第三条为从设计层面推断(inferred from the design)。
后训练规模化探索受限于算力

作者指出:"Due to limited computational resources, our investigation into post-training scalability is still in its early stages." 现有实验仅在 32 块 A100 上进行,更大规模的后训练数据与参数量对性能的影响尚未充分研究,存在进一步提升空间。

与强化学习的整合有待深入

论文承认当前方法需要 "further research to fully integrate it with reinforcement learning paradigms, enabling more robust and adaptive policy learning"。现阶段仅依赖模仿学习,RL 闭环训练(探索、奖励设计等)尚未实现。

视觉分辨率低 & 大模型实时部署挑战(inferred)

真实机器人实验采用 128×128 分辨率,在细粒度操作(如连接器插入)中细节信息损失明显。此外,8.5B 参数的自回归 Transformer 在对延迟敏感的实时控制场景下部署存在挑战,论文未提供推理速度或模型量化方案的讨论。