RSS 2025 · 机器人 · Robotics

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

从视频中无监督学习任务中心潜在动作,实现跨体态通用机器人策略
Qingwen Bu · Yanting Yang · Jisong Cai · Shenyuan Gao · Guanghui Ren · Maoqing Yao · Ping Luo · Hongyang Li

UniVLA 提出一种统一的视觉-语言-动作(VLA)框架:通过 inverse dynamics model 从视频帧对中以无监督方式提取任务中心潜在动作,使机器人策略能够直接利用无动作标注的多体态视频数据预训练,以不足 OpenVLA 1/20 的预训练计算量和 1/10 的下游数据量,在操作与导航任务上均超越现有方法。

RSS 2025 Prismatic-7B VLM 960 A100-hours 预训练 📄 arXiv:2505.06111 GitHub 代码
VLA latent action cross-embodiment inverse dynamics model VQ-VAE 机器人操作 视觉导航 跨体态迁移 具身智能 imitation learning

01 动机 Motivation

现有 VLA 方法严重依赖带动作标注的数据集进行扩展,导致跨体态知识迁移困难、预训练成本高昂。如何像大语言模型学习跨语言共享知识一样,让机器人从无标注视频中学习通用动作表示?

"most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities … We draw inspiration from the fact that large language models learn cross-lingual shared knowledge … and propose UniVLA to derive task-centric action representations from videos."
UniVLA 总览图
图1:UniVLA 是一个统一的 VLA 框架,通过无监督方式从不同体态和视角的视频中提取任务中心潜在动作,无需动作标签即可利用任意体态的数据进行预训练。
95.2%LIBERO 平均成功率
(Full 预训练)
+18.7%超越 OpenVLA
(LIBERO 基准)
47.1%R2R VLN-CE
Oracle Success Rate
1/20相比 OpenVLA 所需
预训练计算量

02 方法 Method

UniVLA 分三个阶段:① 从视频帧对中学习任务中心潜在动作;② 预训练通用 VLA 策略预测潜在动作 token;③ 用轻量 action decoder 将潜在动作解码为各体态的真实机器人控制量。

阶段一:任务中心潜在动作学习(Task-Centric Latent Action Learning)

以成对视频帧为输入,通过 inverse dynamics model 配合 VQ-VAE 量化,将视觉变化压缩为离散潜在动作 token。关键创新在于利用 DINOv2 特征空间(而非原始像素)进行建模,天然过滤无关视觉变化(非自我运动体、不可预测的摄像头抖动等)。训练分两步进行:Stage 1 用语言指令作为 encoder 与 decoder 的条件输入,解耦任务相关动态;Stage 2 引入"任务无关"分支,强制 encoder 仅捕获任务相关的视觉变化。

潜在动作学习框架
图2:任务中心潜在动作学习框架。Stage 1 以语言指令作为 encoder/decoder 条件,Stage 2 增加任务无关分支进行解耦,确保潜在动作仅反映与任务指令相关的视觉动态变化。
潜在动作语义分析
图8:潜在动作语义一致性分析。不同数据源与体态(机器人 / 人手)被赋予相同潜在动作编码的图像对,表现出语义一致的动作类型,验证了跨体态潜在动作空间的共享语义。

阶段二:通用策略预训练(Generalist Policy Pretraining)

策略骨干网络采用 Prismatic-7B VLM,以视觉 embedding 与任务指令 token 为输入,自回归预测离散化的潜在动作 token。这一设计使策略可直接利用所有有视频和语言的数据(含人类示教视频、OpenX 跨体态数据)进行大规模预训练,彻底打破对动作标注的依赖。

通用策略架构
图3:通用策略架构。基于 Prismatic-7B VLM,以投影视觉 embedding 和任务指令 token 为输入,自回归预测潜在动作 token。历史潜在动作序列被编码为 action history token 注入当前决策,提升时序一致性。

阶段三:潜在动作解码(Latent Action Decoding)

部署阶段,为每个目标体态训练一个轻量 action decoder(仅 12.6M 参数),将策略输出的潜在动作 token 解码为该体态的实际控制指令。解码器以视觉观测与历史潜在动作为输入,可独立于主策略高效适配新体态,支持 10Hz 闭环推理(RTX 4090)。

DINOv2 特征空间的优势

  • 原始像素会捕获任务无关变化(背景、光照、非自我运动体)
  • DINOv2 的语义特征对这些干扰因素天然鲁棒
  • 消融实验证明:在 DINOv2 空间建模比像素空间(Genie 方式)平均高 6.9%

历史潜在动作的作用

  • 将历史动作编码为 action history token 输入策略
  • LIBERO-Long 任务:有 vs 无历史动作 → 92.0% vs 88.1%
  • R2R 导航任务:有 vs 无历史动作 → 47.1% vs 30.6%(+16.5%)

03 实验 Experiments

在三类任务上评估:桌面操作(LIBERO benchmark)、真实机器人部署(Piper 7-DoF 机械臂)和视觉语言导航(R2R VLN-CE)。基线包括 OpenVLA、LAPA、MaIL、MDT、Diffusion Policy、Octo 等主流方法。

LIBERO Benchmark(桌面操作)

方法SpatialObjectGoalLong平均
LAPA73.874.658.855.465.7
Diffusion Policy78.392.568.350.572.4
Octo78.985.784.651.175.1
MDT78.587.573.564.876.1
OpenVLA84.788.479.253.776.5
MaIL74.390.181.878.683.5
UniVLA (Human)91.294.290.279.488.7
UniVLA (Bridge)95.295.491.987.592.5
UniVLA (Full)96.596.895.692.095.2

UniVLA (Full) 相比 OpenVLA 提升 18.7%,相比 LAPA 提升 29.5%

真实机器人部署(Piper 7-DoF 机械臂)

任务Diffusion PolicyOpenVLALAPAUniVLA
Store Screwdriver80.060.066.793.3
Clean Cutting Board73.320.033.380.0
Fold Towel Twice53.36.713.346.7
Stack Tower of Hanoi6.713.326.786.7
平均成功率53.325.035.076.7

UniVLA 相比 LAPA 平均成功率提升 36.7%,在语义推理要求最高的 Stack Tower of Hanoi 任务上尤为突出(LAPA 26.7% → UniVLA 86.7%)。

泛化性评测
图7:泛化性评测设置与结果。在三种场景下评估:Lighting Variation(光照变化)、Visual Distractor(视觉干扰)、Novel Object(新颖物体)。UniVLA 平均得分 2.49,远超 LAPA(1.36)和 OpenVLA(0.98)。

视觉语言导航(R2R VLN-CE)

导航结果
图6:R2R VLN-CE 上的 Oracle Success Rate。UniVLA 仅用单帧 RGB 输入加历史潜在动作,达到 47.1%,与使用全历史观测的 NaVid 持平,超越 OpenVLA 29.6%、LLaVA-Nav 33.1%。

消融实验

以下消融实验揭示了各设计选择的重要性(数据均来自论文 Table III–V):

潜在动作类型SpatialObjectGoalLong平均
Genie(全部变化)89.892.877.269.682.3
任务无关分量68.090.467.20.256.5
任务中心(本文)91.294.290.279.488.7
数据可扩展性
图9:数据可扩展性分析。随着预训练语料库从 Bridge-V2(单源)扩展至加入 OpenX 跨体态数据与无标注人类示教视频,下游性能持续提升,验证了 UniVLA 跨体态数据利用的有效性。

04 局限性 Limitations

说明:以下局限性由论文作者在 Limitation 章节明确陈述。
潜在动作粒度固定,复杂体态支持有限

论文指出:"The fixed granularity of the latent action and the predefined codebook size may not be optimal for all tasks or embodiments."本文主要在单臂操作场景下验证;扩展到双臂或灵巧手系统需要更复杂的动作建模,尚未得到充分探索。

依赖细粒度语言指令

任务中心潜在动作的学习依赖语言指令作为解耦信号,要求指令描述短时程具体动作,而非高层目标。尽管作者指出方法可处理不同粒度的指令,但对极稀疏或极抽象指令的鲁棒性尚待验证。

World model 能力未充分利用

潜在动作 decoder 实质上是一个 world model,但本文未将其用于规划树搜索或与奖励模型结合做强化学习,留有较大的探索空间。

In-context learning 能力尚待开发

作者提出未来可将人类示教视频编码为潜在动作序列,用于零样本技能迁移(in-context learning),但该能力在本文中尚未实现。