ICML 2025 · 机器人操作 · VLA

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

统一多模态理解与未来视觉预测,赋予 VLA 模型精细空间感知能力
Jianke Zhang, Yanjiang Guo, Yucheng Hu, Xiaoyu Chen, Xiang Zhu, Jianyu Chen

UP-VLA 通过联合训练 multi-modal understanding(MMU)和 future visual prediction(PRE)两个目标,弥补了现有 VLA 模型在低层空间理解上的不足。在仿真基准 Calvin ABC-D 上,UP-VLA 以平均完成长度 4.08 超越上一最优方法 GR-1 (3.06) 达 33%;在真实机械臂任务中,已见场景成功率达 80%,未见物体泛化成功率 58%

ICML 2025 Phi-1.5 · 1.5B LLM Calvin + Real-World Franka 📄 arXiv:2501.18867 PDF
VLA vision-language-action 具身智能 future prediction 机器人操作 multi-modal understanding embodied agent Calvin benchmark robotic manipulation Phi-1.5

01 动机

Vision-Language-Action (VLA) 模型借助大规模预训练 VLM 的语义知识,大幅提升了机器人策略的泛化能力。然而,现有 VLM 以高层语义理解为主,对低层视觉特征(距离、尺寸、空间关系)理解不足,而这些恰是机器人精细操作任务所必需的。

"VLMs often focus on high-level semantic content and neglect low-level features, limiting their ability to capture detailed visual and spatial information. These aspects, which are crucial for robotic control tasks, remain underexplored in existing pre-training paradigms."
UP-VLA overview teaser
图 1:UP-VLA 同时接受 multi-modal understanding 和 future prediction 两个预训练目标。左侧展示高层语义理解(VQA、指令跟随),右侧展示预测未来帧以建立低层空间感知;两者共同驱动 action 生成。
Comparison of VLA paradigms
图 2:三类 VLA 范式对比。纯 VLM-based VLA 语义理解强但空间感知弱;纯 prediction-based 方法空间感知强但缺乏语义泛化;UP-VLA 结合两者优势,在仿真与真实操作任务上均表现最优。
4.08Calvin ABC→D Avg. Length(UP-VLA)
+33%相对 GR-1 (3.06) 的提升幅度
80%真实机械臂已见任务成功率
58%未见物体 / 精细操作泛化成功率

02 方法

UP-VLA 以 Phi-1.5(1.5B 参数)作为语言骨干,将 CLIP-ViT(连续 token,用于理解)和 VQ-GAN(离散 token,用于预测)双路图像编码器的输出统一送入同一 LLM,通过三个互补目标联合训练:多模态理解(MMU)、未来图像预测(PRE)以及动作学习(ACT),模型初始化自 Show-o(1.3B,512×512)。

UP-VLA architecture overview
图 3:UP-VLA 整体架构。蓝色路径:CLIP-ViT 编码连续视觉 token,经 MLP 投影后与语言 token 一起喂入 LLM,完成 VQA / 语义理解;橙色路径:VQ-GAN 编码离散图像 token,LLM 在给定当前观测与任务指令的条件下自回归预测下一帧的离散 token;绿色路径:MAP(单层 attention)+ 线性层将 LLM 输出映射为机器人动作(6-DoF 末端位移 + 夹爪开合)。三路目标共享同一 LLM 权重。
Unified prompting and attention mechanism
图 4:统一 prompt 与 attention 机制示意图。MMU 任务时,图像 token 彼此可见并预测语言 token;PRE 任务时,语言 token 条件化未来离散图像 token 的生成;ACT 任务时,两路 token 联合驱动动作输出,并同步预测未来帧。

三个训练目标

Multi-modal Understanding (ℒMMU)

给定图像连续 token u 和已生成语言 token,最大化下一个语言 token 的对数似然:

ℒ_MMU = Σi log pθ(li | u, l1,…,li-1)

预训练数据:LLaVa-tuning-665k(665k 图文对),涵盖 VQA、描述、推理等任务,赋予模型丰富语义知识。

Future Visual Prediction (ℒPRE)

以语言指令和当前观测为条件,逐位预测未来帧的 VQ-GAN 离散 token,使用 cross-entropy 损失:

ℒ_PRE = Σj log pθ(v'j | l, v1,…,vM)

预训练数据:Bridge 数据集(25k 机械臂演示),强迫模型学习动作执行后的视觉后果,建立低层空间先验。

Action Learning (ℒACT) — 联合目标

在动作数据上同时预测下一帧图像和机器人动作,合并损失为:

ℒ = λ₁ℒMMU + λ₂ℒPRE + λ₃ℒACT

其中 ℒACT = Σ‖âpos − apos‖²₂ + BCE(âend, aend),分别约束末端执行器 6-DoF 相对位移(MSE)和夹爪开合状态(BCE)。

模型生成场景描述(VQA 自问自答)后将其拼接到 prompt 中,为动作推断提供明确的语义上下文,进一步利用 MMU 能力。训练 20k steps,batch size 64,前 1k steps 线性 warmup。

真实机器人部署

使用 Franka-Emika Panda 机械臂,收集 2k+ 演示(6 项技能,人工远程操控 + 脚本策略),涵盖抓取、摆放、插线等任务;测试分为已见场景、未见物体、精细操作三类,各执行 20 次。

Evaluation environments
图 5:评估环境可视化。左:Calvin 仿真环境,包含 ABC→D 和 ABCD→D 两种泛化设置;右:Franka 真实机械臂任务,包含已见任务(seen tasks)、未见物体(unseen objects)和精细操作(precise operations)三类。

03 实验

在仿真基准 Calvin(ABC→D / ABCD→D)和真实 Franka 机械臂任务上与 RT-1、Robo-Flamingo、GR-1 等强基线对比,评测指标为平均任务完成长度(Avg. Length,最高 5)和操作成功率。

Calvin ABC→D 仿真基准

方法类型 Avg. Len ↑Task 1Task 2Task 3Task 4Task 5
RT-1other0.900.5330.2220.0940.0380.013
Diffusion Policy*other0.560.4020.1230.0260.0080.000
3D Diffuser Actorother3.350.9380.8030.6620.5330.412
3D-VLAVLA0.710.4470.1630.0810.0160.000
UP-VLA-RT-2*VLA1.440.6120.3890.2360.1380.062
Robo-FlamingoVLA2.470.8240.6190.4660.3310.235
Uni-PiPrediction0.920.5600.1600.0800.0800.040
SuSIEPrediction2.690.8700.6900.4900.3800.260
GR-1Prediction3.060.8540.7120.5960.4970.401
UP-VLA-phi-w/o-mmu*Prediction3.130.8440.7050.6040.5200.430
UP-VLAPrediction&VLA 4.08 0.9280.8650.815 0.7690.699

Calvin ABCD→D 仿真基准

方法类型 Avg. Len ↑Task 1Task 2Task 3Task 4Task 5
RT-1other2.450.8440.6170.4380.3230.227
Robo-FlamingoVLA4.090.9640.8960.8240.7400.660
GR-1Prediction4.210.9490.8960.8440.7890.731
UP-VLAPrediction&VLA 4.42 0.9620.9210.879 0.8420.812

消融实验(Calvin ABC→D + 真实机械臂)

消融变体 ABC→D Avg.Len ↑ 真实已见任务 ↑ 真实未见物体 ↑
w/o MMU3.890.850.20
w/o Bridge-Pretrain2.740.650.30
w/o Prediction1.440.650.35
w/o MMU-Condition3.990.800.50
Full UP-VLA 4.080.800.58

消融结果表明:去掉 visual prediction(Avg. Len 骤降至 1.44)和 Bridge 预训练(降至 2.74)影响最大,说明低层空间预测目标是模型核心收益来源。MMU-Condition(将自生成场景描述拼接入 prompt)对未见物体的泛化贡献显著(从 0.50 → 0.58)。

真实操作与视觉预测可视化

VQA results and predicted future images
图 7:左侧展示 VQA 理解结果(模型能正确识别场景中物体的位置、颜色与相对关系);右侧展示 future prediction 生成的未来帧,模型能预测机械臂抓取动作后的视觉状态,验证了 PRE 目标赋予的空间推理能力。
Real-world manipulation results
图 6:真实 Franka 机械臂操作成功率汇总。已见任务成功率 0.80,未见物体泛化 0.58,精细操作(插线、小物体抓取)0.58,均明显优于消融基线。

04 局限性

Note:论文未设独立 "Limitations" 小节;以下各点来自结论与结果讨论,均为作者明确指出(stated)的内容。
特定物体识别准确率不稳定

由于"数据规模和骨干网络的限制(constraints in data scale and backbone)",模型对特定物体的识别有时不准确,导致 VQA 质量参差不齐,进而影响 MMU-Condition 的效果。

预测帧中背景颜色伪影

在 Calvin D 环境中,预测的未来帧有时出现与当前输入帧背景颜色不一致的颜色伪影,原因是训练数据(Bridge 数据集)的视觉分布与测试环境存在偏差,模型尚未充分泛化到新场景的视觉风格。

视觉生成预训练数据不足

当前 Bridge 预训练数据(25k 演示)规模有限,导致视觉预测在多样场景下不够鲁棒,限制了 PRE 目标在更广泛真实部署中的收益上限。未来引入更大规模、更多样的机器人视频数据有望突破此瓶颈。

模型规模与计算成本

inferred from design)采用双路图像编码器(CLIP-ViT + VQ-GAN)加上自回归未来帧预测,推理时计算量大于单路 VLA;在实时高频控制场景下延迟较高,论文未给出推理速度的具体数据。