UniVLA: Unified Vision-Language-Action Model

01 动机

现有 VLA 方法大多采用"后期融合"策略：视觉特征提取与动作生成分处独立模块，难以捕捉跨模态的时序依赖关系。与此同时，有监督的机器人动作数据规模远小于互联网视频数据，策略泛化能力因此受限。如何充分利用海量无标注视频数据并实现视觉-语言-动作的紧密协同，是当前机器人学习面临的核心挑战。

"vision, language, and action are jointly modeled within a unified representation space to facilitate tighter cross-modal integration."

UniVLA 总览 — 图 1：UniVLA 架构总览。所有模态（语言、视觉、动作）均被转化为统一词汇表中的离散 token，经单一自回归 Transformer 联合建模，支持动作预测、视觉未来帧预测及空间定位等多种任务。

95.5%LIBERO 平均成功率
超越 π₀-FAST 的 85.5%

4.63CALVIN ABCD→D
平均任务链长度（SOTA）

69.8%SimplerEnv WidowX 成功率
vs SpatialVLA 42.7%

81.7%NAVSIM PDMS
仅用单目前视摄像头

02 方法

UniVLA 的核心思想是将所有模态统一为离散 token：视觉通过 VQ 编码器以 8× 空间压缩率离散化，动作通过 FAST 对连续序列施加离散余弦变换（DCT）后编码为 1024 个 token，语言沿用标准 BPE 词汇表。三种模态共享同一词汇表，由特殊分隔符（boi/eoi 标示图像起止，boa/eoa 标示动作起止）明确边界，统一输入 8.5B 参数的自回归 Transformer，训练目标为标准 next-token prediction（cross-entropy loss）。

UniVLA 框架 — 图 2：两阶段训练框架。第一阶段（世界模型后训练）：以 Emu3 预训练权重初始化，在 622K 机器人及通用视频上进行无动作监督的视觉 token 预测；第二阶段（策略微调）：在目标任务数据上以双帧交错视觉-动作序列进行动作 token 监督微调。

统一多模态 Tokenization

视觉 token 采用与 Emu3 相同设计的 VQ 编码器，将图像以 8× 压缩率编码为离散 token。动作 token 采用 FAST tokenizer——对连续动作序列施加 DCT 变换后映射至 1024 个离散 token，替换语言词汇表末尾的 1024 个 ID，从而与语言 token 共享同一词汇表，实现真正统一的序列建模。特殊分隔符 boi/eoi（图像起止）和 boa/eoa（动作起止）明确标示模态边界。

两阶段训练：世界模型后训练 + 策略微调

后训练（World Model Post-training）：模型以 Emu3 第一阶段预训练权重初始化，在 622K 精心策划的视频（覆盖 RT-1、BridgeV2、DROID 等多个机器人数据集及 Something-Something-V2 等通用视频）上训练，监督信号仅作用于视觉 token，无需动作标注。序列形式为 S_v = {Lt¹, Lv¹, Lv², …, Lvt}，语言指令条件化视觉预测，引导模型学习环境因果动态。训练 30K 步，batch size 64，在 32 块 A100 GPU 上耗时 4–5 天。

微调（Policy Fine-tuning）：以后训练权重为起点，采用双帧交错的视觉-动作序列，action chunk size 为 10，损失仅作用于动作 token。余弦退火学习率从 8×10⁻⁵ 开始，在各基准上分别训练 8K–20K 步。

图 3：UniVLA 的多模态能力展示，包括动作预测、视觉未来帧预测以及空间定位，体现了统一 token 建模框架的通用性——同一模型无需模态专用分支即可处理多种任务类型。

03 实验

在 CALVIN、LIBERO、SimplerEnv 和 NAVSIM 四个基准上与当前最优方法对比，并通过消融实验定量验证各关键组件的贡献。真实机器人实验在 AgileX 双臂平台上进行（3 路 RGB 摄像头，128×128 分辨率，14 维动作向量，chunk size 20），共 8 类操作任务。

LIBERO 基准

方法	Spatial	Object	Goal	Long	Average
UniVLA（本文）	95.4%	98.8%	93.6%	94.0%	95.5%
π₀-FAST	96.4%	96.8%	88.6%	60.2%	85.5%
CoT-VLA	87.5%	91.6%	87.6%	69.0%	81.1%
SpatialVLA	88.2%	89.9%	78.6%	55.5%	78.1%

CALVIN 基准（平均任务链长度，满分 5）

方法	ABC→D	ABCD→D
UniVLA（本文）	4.41	4.63
RoboVLMs	4.25	4.49
UP-VLA	4.08	4.42
Seer-Large	4.28	—

SimplerEnv（WidowX）& NAVSIM

基准	方法	成功率 / PDMS
SimplerEnv	UniVLA（本文）	69.8%
SimplerEnv	SpatialVLA	42.7%
SimplerEnv	RoboVLMs	37.5%
SimplerEnv	Octo-Small	29.5%
NAVSIM	UniVLA（单目前视）	81.7%

消融：世界模型后训练的贡献

后训练对性能提升贡献最为显著：移除后，LIBERO 整体从 94.2% 降至 48.5%（−45.7 pp），LIBERO-Long 从 89.2% 降至 17.4%（−71.8 pp），CALVIN ABCD→D 从 4.61 降至 1.46（−3.15）。数据效率实验表明：仅使用 10% 训练数据时，UniVLA 在 CALVIN 上仍达 3.19，显著高于 RoboVLMs 的 2.52，体现出世界模型预训练带来的强泛化能力。

真实机器人实验 — 图 4：真实世界任务示例，包括擦白板、桌面整理、汉堡组装和连接器插入，展示 UniVLA 在 AgileX 双臂机器人平台上的多样化操作能力。

04 局限性

Note: 以下前两条为论文作者明确陈述（stated by the authors）；第三条为从设计层面推断（inferred from the design）。

后训练规模化探索受限于算力

作者指出："Due to limited computational resources, our investigation into post-training scalability is still in its early stages." 现有实验仅在 32 块 A100 上进行，更大规模的后训练数据与参数量对性能的影响尚未充分研究，存在进一步提升空间。

与强化学习的整合有待深入

论文承认当前方法需要 "further research to fully integrate it with reinforcement learning paradigms, enabling more robust and adaptive policy learning"。现阶段仅依赖模仿学习，RL 闭环训练（探索、奖励设计等）尚未实现。

视觉分辨率低 & 大模型实时部署挑战（inferred）

真实机器人实验采用 128×128 分辨率，在细粒度操作（如连接器插入）中细节信息损失明显。此外，8.5B 参数的自回归 Transformer 在对延迟敏感的实时控制场景下部署存在挑战，论文未提供推理速度或模型量化方案的讨论。