UniVLA 以纯自回归 Transformer 将视觉、语言与动作信号编码为统一的离散 token 序列,并设计了两阶段训练策略:先在 622K 视频上进行无动作监督的世界模型后训练,再对下游任务进行策略微调。在 LIBERO 基准上以 95.5% 的平均成功率超越 π₀-FAST 的 85.5%,在 CALVIN 及 SimplerEnv 上也均达到新的最优水平。
现有 VLA 方法大多采用"后期融合"策略:视觉特征提取与动作生成分处独立模块,难以捕捉跨模态的时序依赖关系。与此同时,有监督的机器人动作数据规模远小于互联网视频数据,策略泛化能力因此受限。如何充分利用海量无标注视频数据并实现视觉-语言-动作的紧密协同,是当前机器人学习面临的核心挑战。
"vision, language, and action are jointly modeled within a unified representation space to facilitate tighter cross-modal integration."
UniVLA 的核心思想是将所有模态统一为离散 token:视觉通过 VQ 编码器以 8× 空间压缩率离散化,动作通过 FAST 对连续序列施加离散余弦变换(DCT)后编码为 1024 个 token,语言沿用标准 BPE 词汇表。三种模态共享同一词汇表,由特殊分隔符(boi/eoi 标示图像起止,boa/eoa 标示动作起止)明确边界,统一输入 8.5B 参数的自回归 Transformer,训练目标为标准 next-token prediction(cross-entropy loss)。
视觉 token 采用与 Emu3 相同设计的 VQ 编码器,将图像以 8× 压缩率编码为离散 token。动作 token 采用 FAST tokenizer——对连续动作序列施加 DCT 变换后映射至 1024 个离散 token,替换语言词汇表末尾的 1024 个 ID,从而与语言 token 共享同一词汇表,实现真正统一的序列建模。特殊分隔符 boi/eoi(图像起止)和 boa/eoa(动作起止)明确标示模态边界。
后训练(World Model Post-training):模型以 Emu3 第一阶段预训练权重初始化,在 622K 精心策划的视频(覆盖 RT-1、BridgeV2、DROID 等多个机器人数据集及 Something-Something-V2 等通用视频)上训练,监督信号仅作用于视觉 token,无需动作标注。序列形式为 Sv = {Lt¹, Lv¹, Lv², …, Lvt},语言指令条件化视觉预测,引导模型学习环境因果动态。训练 30K 步,batch size 64,在 32 块 A100 GPU 上耗时 4–5 天。
微调(Policy Fine-tuning):以后训练权重为起点,采用双帧交错的视觉-动作序列,action chunk size 为 10,损失仅作用于动作 token。余弦退火学习率从 8×10⁻⁵ 开始,在各基准上分别训练 8K–20K 步。
在 CALVIN、LIBERO、SimplerEnv 和 NAVSIM 四个基准上与当前最优方法对比,并通过消融实验定量验证各关键组件的贡献。真实机器人实验在 AgileX 双臂平台上进行(3 路 RGB 摄像头,128×128 分辨率,14 维动作向量,chunk size 20),共 8 类操作任务。
| 方法 | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|
| UniVLA(本文) | 95.4% | 98.8% | 93.6% | 94.0% | 95.5% |
| π₀-FAST | 96.4% | 96.8% | 88.6% | 60.2% | 85.5% |
| CoT-VLA | 87.5% | 91.6% | 87.6% | 69.0% | 81.1% |
| SpatialVLA | 88.2% | 89.9% | 78.6% | 55.5% | 78.1% |
| 方法 | ABC→D | ABCD→D |
|---|---|---|
| UniVLA(本文) | 4.41 | 4.63 |
| RoboVLMs | 4.25 | 4.49 |
| UP-VLA | 4.08 | 4.42 |
| Seer-Large | 4.28 | — |
| 基准 | 方法 | 成功率 / PDMS |
|---|---|---|
| SimplerEnv | UniVLA(本文) | 69.8% |
| SimplerEnv | SpatialVLA | 42.7% |
| SimplerEnv | RoboVLMs | 37.5% |
| SimplerEnv | Octo-Small | 29.5% |
| NAVSIM | UniVLA(单目前视) | 81.7% |
后训练对性能提升贡献最为显著:移除后,LIBERO 整体从 94.2% 降至 48.5%(−45.7 pp),LIBERO-Long 从 89.2% 降至 17.4%(−71.8 pp),CALVIN ABCD→D 从 4.61 降至 1.46(−3.15)。数据效率实验表明:仅使用 10% 训练数据时,UniVLA 在 CALVIN 上仍达 3.19,显著高于 RoboVLMs 的 2.52,体现出世界模型预训练带来的强泛化能力。
作者指出:"Due to limited computational resources, our investigation into post-training scalability is still in its early stages." 现有实验仅在 32 块 A100 上进行,更大规模的后训练数据与参数量对性能的影响尚未充分研究,存在进一步提升空间。
论文承认当前方法需要 "further research to fully integrate it with reinforcement learning paradigms, enabling more robust and adaptive policy learning"。现阶段仅依赖模仿学习,RL 闭环训练(探索、奖励设计等)尚未实现。
真实机器人实验采用 128×128 分辨率,在细粒度操作(如连接器插入)中细节信息损失明显。此外,8.5B 参数的自回归 Transformer 在对延迟敏感的实时控制场景下部署存在挑战,论文未提供推理速度或模型量化方案的讨论。