UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

01 动机 Motivation

现有 VLA 方法严重依赖带动作标注的数据集进行扩展，导致跨体态知识迁移困难、预训练成本高昂。如何像大语言模型学习跨语言共享知识一样，让机器人从无标注视频中学习通用动作表示？

"most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities … We draw inspiration from the fact that large language models learn cross-lingual shared knowledge … and propose UniVLA to derive task-centric action representations from videos."

UniVLA 总览图 — 图1：UniVLA 是一个统一的 VLA 框架，通过无监督方式从不同体态和视角的视频中提取任务中心潜在动作，无需动作标签即可利用任意体态的数据进行预训练。

95.2%LIBERO 平均成功率
（Full 预训练）

+18.7%超越 OpenVLA
（LIBERO 基准）

47.1%R2R VLN-CE
Oracle Success Rate

1/20相比 OpenVLA 所需
预训练计算量

02 方法 Method

UniVLA 分三个阶段：① 从视频帧对中学习任务中心潜在动作；② 预训练通用 VLA 策略预测潜在动作 token；③ 用轻量 action decoder 将潜在动作解码为各体态的真实机器人控制量。

阶段一：任务中心潜在动作学习（Task-Centric Latent Action Learning）

以成对视频帧为输入，通过 inverse dynamics model 配合 VQ-VAE 量化，将视觉变化压缩为离散潜在动作 token。关键创新在于利用 DINOv2 特征空间（而非原始像素）进行建模，天然过滤无关视觉变化（非自我运动体、不可预测的摄像头抖动等）。训练分两步进行：Stage 1 用语言指令作为 encoder 与 decoder 的条件输入，解耦任务相关动态；Stage 2 引入"任务无关"分支，强制 encoder 仅捕获任务相关的视觉变化。

图2：任务中心潜在动作学习框架。Stage 1 以语言指令作为 encoder/decoder 条件，Stage 2 增加任务无关分支进行解耦，确保潜在动作仅反映与任务指令相关的视觉动态变化。

潜在动作语义分析 — 图8：潜在动作语义一致性分析。不同数据源与体态（机器人 / 人手）被赋予相同潜在动作编码的图像对，表现出语义一致的动作类型，验证了跨体态潜在动作空间的共享语义。

阶段二：通用策略预训练（Generalist Policy Pretraining）

策略骨干网络采用 Prismatic-7B VLM，以视觉 embedding 与任务指令 token 为输入，自回归预测离散化的潜在动作 token。这一设计使策略可直接利用所有有视频和语言的数据（含人类示教视频、OpenX 跨体态数据）进行大规模预训练，彻底打破对动作标注的依赖。

图3：通用策略架构。基于 Prismatic-7B VLM，以投影视觉 embedding 和任务指令 token 为输入，自回归预测潜在动作 token。历史潜在动作序列被编码为 action history token 注入当前决策，提升时序一致性。

阶段三：潜在动作解码（Latent Action Decoding）

部署阶段，为每个目标体态训练一个轻量 action decoder（仅 12.6M 参数），将策略输出的潜在动作 token 解码为该体态的实际控制指令。解码器以视觉观测与历史潜在动作为输入，可独立于主策略高效适配新体态，支持 10Hz 闭环推理（RTX 4090）。

DINOv2 特征空间的优势

原始像素会捕获任务无关变化（背景、光照、非自我运动体）
DINOv2 的语义特征对这些干扰因素天然鲁棒
消融实验证明：在 DINOv2 空间建模比像素空间（Genie 方式）平均高 6.9%

历史潜在动作的作用

将历史动作编码为 action history token 输入策略
LIBERO-Long 任务：有 vs 无历史动作 → 92.0% vs 88.1%
R2R 导航任务：有 vs 无历史动作 → 47.1% vs 30.6%（+16.5%）

03 实验 Experiments

在三类任务上评估：桌面操作（LIBERO benchmark）、真实机器人部署（Piper 7-DoF 机械臂）和视觉语言导航（R2R VLN-CE）。基线包括 OpenVLA、LAPA、MaIL、MDT、Diffusion Policy、Octo 等主流方法。

LIBERO Benchmark（桌面操作）

方法	Spatial	Object	Goal	Long	平均
LAPA	73.8	74.6	58.8	55.4	65.7
Diffusion Policy	78.3	92.5	68.3	50.5	72.4
Octo	78.9	85.7	84.6	51.1	75.1
MDT	78.5	87.5	73.5	64.8	76.1
OpenVLA	84.7	88.4	79.2	53.7	76.5
MaIL	74.3	90.1	81.8	78.6	83.5
UniVLA (Human)	91.2	94.2	90.2	79.4	88.7
UniVLA (Bridge)	95.2	95.4	91.9	87.5	92.5
UniVLA (Full)	96.5	96.8	95.6	92.0	95.2

UniVLA (Full) 相比 OpenVLA 提升 18.7%，相比 LAPA 提升 29.5%。

真实机器人部署（Piper 7-DoF 机械臂）

任务	Diffusion Policy	OpenVLA	LAPA	UniVLA
Store Screwdriver	80.0	60.0	66.7	93.3
Clean Cutting Board	73.3	20.0	33.3	80.0
Fold Towel Twice	53.3	6.7	13.3	46.7
Stack Tower of Hanoi	6.7	13.3	26.7	86.7
平均成功率	53.3	25.0	35.0	76.7

UniVLA 相比 LAPA 平均成功率提升 36.7%，在语义推理要求最高的 Stack Tower of Hanoi 任务上尤为突出（LAPA 26.7% → UniVLA 86.7%）。

图7：泛化性评测设置与结果。在三种场景下评估：Lighting Variation（光照变化）、Visual Distractor（视觉干扰）、Novel Object（新颖物体）。UniVLA 平均得分 2.49，远超 LAPA（1.36）和 OpenVLA（0.98）。

视觉语言导航（R2R VLN-CE）

导航结果 — 图6：R2R VLN-CE 上的 Oracle Success Rate。UniVLA 仅用单帧 RGB 输入加历史潜在动作，达到 47.1%，与使用全历史观测的 NaVid 持平，超越 OpenVLA 29.6%、LLaVA-Nav 33.1%。

消融实验

以下消融实验揭示了各设计选择的重要性（数据均来自论文 Table III–V）：

潜在动作类型	Spatial	Object	Goal	Long	平均
Genie（全部变化）	89.8	92.8	77.2	69.6	82.3
任务无关分量	68.0	90.4	67.2	0.2	56.5
任务中心（本文）	91.2	94.2	90.2	79.4	88.7

图9：数据可扩展性分析。随着预训练语料库从 Bridge-V2（单源）扩展至加入 OpenX 跨体态数据与无标注人类示教视频，下游性能持续提升，验证了 UniVLA 跨体态数据利用的有效性。

04 局限性 Limitations

说明：以下局限性由论文作者在 Limitation 章节明确陈述。

潜在动作粒度固定，复杂体态支持有限

论文指出："The fixed granularity of the latent action and the predefined codebook size may not be optimal for all tasks or embodiments."本文主要在单臂操作场景下验证；扩展到双臂或灵巧手系统需要更复杂的动作建模，尚未得到充分探索。

依赖细粒度语言指令

任务中心潜在动作的学习依赖语言指令作为解耦信号，要求指令描述短时程具体动作，而非高层目标。尽管作者指出方法可处理不同粒度的指令，但对极稀疏或极抽象指令的鲁棒性尚待验证。

World model 能力未充分利用

潜在动作 decoder 实质上是一个 world model，但本文未将其用于规划树搜索或与奖励模型结合做强化学习，留有较大的探索空间。

In-context learning 能力尚待开发

作者提出未来可将人类示教视频编码为潜在动作序列，用于零样本技能迁移（in-context learning），但该能力在本文中尚未实现。