机器人操作 · VLA · 2025

DreamVLA

A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, Xinqiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, Fan Lu, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin — SJTU / EIT / THU / Galbot / PKU / UIUC / USTC

DreamVLA 让 VLA 模型在生成动作之前,先"梦想"出机器人任务中最关键的世界知识——动态区域、深度图与语义特征——从而大幅提升操作推理与泛化能力,在 CALVIN ABC-D 基准上取得 4.44 平均连续完成长度,超越所有已知方法。

arXiv 2507.04447 cs.CV / cs.RO · 2025 CALVIN ABC-D: 4.44 avg. len. 📄 arXiv:2507.04447
VLA vision-language-action 机器人操作 world knowledge prediction dynamic regions depth forecasting semantic features diffusion transformer CALVIN 具身智能

01 动机

当前 VLA 模型大多直接将视觉观测与语言指令映射为动作序列,缺乏对"未来会发生什么"的显式推理。已有研究尝试通过预测整帧图像或生成子目标来引入前瞻性,但这类方法引入了大量冗余像素信息、缺少显式 3D 知识,且对未来状态的高层理解十分有限,导致泛化能力不足。

"Prior work relies on redundant pixel information, lacks explicit 3D knowledge, and fails to capture high-level understanding of future states."
VLA方法对比示意图
图 1:四类 VLA 范式对比。(a) 普通 VLA 直接映射观测→动作;(b) 借助独立图像/视频生成或 copilot 模型预测未来帧/轨迹后再驱动动作头;(c) 先预测子目标图像再生成动作;(d) 本文提出的 DreamVLA,显式预测动态区域、深度图与语义特征(DINOv2 + SAM)作为世界知识,显著增强动作推理与泛化。
4.44CALVIN ABC-D 平均长度(SOTA)
92.6%LIBERO 综合成功率
76.7%真实 Franka 机器人成功率
世界知识类型(动态 + 深度 + 语义)

02 方法

DreamVLA 将多模态输入(RGB 图像、语言指令、机器人状态)送入统一的 GPT-2 骨干 Transformer,通过两类可学习查询令牌——<dream>(世界知识预测)与 <action>(动作生成)——同步建模"下一步世界状态"和"下一步执行动作"。预测分支通过三个轻量解码器分别输出动态区域、深度图和语义特征,动作分支则使用 diffusion transformer 生成连续动作序列。

DreamVLA框架总览
图 2:DreamVLA 整体框架。多模态输入经各自编码器(CLIP 文本编码器、Masked Autoencoder 视觉编码器、状态编码器)嵌入后,拼接送入 LLM;LLM 输出分两路:<dream> 查询经三个轻量解码器分别预测动态区域(CoTracker 监督)、深度图(Depth-Anything 监督)、语义特征(DINOv2 + SAM 监督);<action> 查询送入 diffusion transformer 生成最终动作。

动态区域预测(Dynamic Regions)

DreamVLA 并不预测稠密光流,也不合成整帧未来图像,而是利用 CoTracker 提取"动态区域"——即随机器人末端执行器或其他可移动物体运动的像素集合,仅在这些区域上进行重建训练。这一设计大幅降低了无关背景像素的干扰:"predicting dynamic regions alone delivers the greatest gains."

动态区域可视化
图 3:动态区域随时间的变化可视化。左列为固定视角相机,右列为腕部相机。蓝色掩码标出在操作过程中发生运动的区域,随任务进程而动态更新。

深度预测与语义特征预测

Depth Forecasting

使用 Depth-Anything 生成深度监督信号,损失函数为尺度归一化 MSE(scale-normalized MSE loss)。预测未来深度场告知机器人下一步应移向何处、远离哪些潜在障碍物,为规划提供显式 3D 知识。

Semantic Features(DINOv2 + SAM)

结合 DINOv2 和 SAM 的特征,通过对比学习 InfoNCE loss 进行监督。语义预测教会模型"哪些物体/区域对任务最重要",提供目标物体身份与可操作性等高层上下文,引导目标选择与抓取决策。

Block-wise Structured Attention

为防止不同查询类型之间的信息泄露,DreamVLA 在自注意力层中引入分块掩码机制(block-wise structured attention)。如图 4 所示,<dream> 查询与 <action> 查询各自只能与上下文 token 及同类查询交互,而不能相互"窥视",从而确保每个预测头的训练信号干净且信息不对称。消融实验显示,去除该机制使平均长度从 4.44 降至 3.75(下降 0.69)。

分块结构化注意力掩码
图 4:Block-wise Structured Attention。注意力掩码将 context tokens、dream queries 和 action queries 三类 token 的交互严格隔离,防止跨模态信息提前泄露,保证各分支梯度信号独立清晰。

03 实验

在三个基准上评估:CALVIN ABC-D(语言条件多任务操作,5 步连续评估)、LIBERO(Spatial / Object / Goal / Long 四个子集)以及真实 Franka Panda 机器人(pick、place、drawer 三类任务)。

CALVIN ABC-D 对比结果

方法T1T2T3T4T5Avg. Len.
Roboflamingo82.461.946.633.123.52.47
Susie87.069.049.038.026.02.69
GR-185.471.259.649.740.13.06
3D Diffusor Actor92.278.763.951.241.23.27
OpenVLA91.377.862.052.143.53.27
RoboDual94.482.772.162.454.43.66
UNIVLA95.585.875.466.956.53.80
Pi093.885.076.768.159.93.92
UP-VLA92.886.581.576.969.94.08
Robovlm98.093.685.477.870.44.25
Seer96.391.686.180.374.04.28
VPP95.791.286.381.075.04.29
DreamVLA(本文)98.294.689.583.478.14.44

LIBERO 对比结果

方法SpatialObjectGoalLongAverage
Diffusion Policy78.392.568.350.572.4
Octo78.985.784.651.175.1
OpenVLA84.788.479.253.776.5
SpatialVLA88.289.978.655.578.1
CoT-VLA81.187.591.687.669.0
DreamVLA(本文)97.594.089.589.592.6

消融实验

知识组合消融实验结果
图 6:不同世界知识组合下的 CALVIN ABC-D 性能。All = 全部五种模型组合;All-X = 从 All 中去掉 X。可见各类知识均有贡献,其中动态区域贡献最大,深度与语义贡献相近且互补。

关键消融结论(均在 CALVIN ABC-D 上测量 Avg. Len.):

04 局限性

Note: 以下局限性均为作者在论文中明确陈述(stated by authors)。
操作类型受限:仅平行夹爪(parallel-gripper)

当前框架主要针对平行夹爪机器人手臂设计,尚不支持灵巧手(dexterous hand)等更复杂的末端执行器。作者计划"add dexterous-hand demonstrations with rich contact annotations"以扩展适用范围。

感知模态单一:仅依赖 RGB 图像(RGB-centric)

模型的世界知识(动态区域、深度、语义)均基于 RGB 图像衍生,缺乏原生的 3D 点云或触觉信号。作者提出"introduce 3D point clouds and spatial information—and fuse them into volumetric world states"作为改进方向。

训练场景多样性有限

训练数据涵盖的几何形状和材质种类有限("trained on scenes with limited geometric and material diversity"),可能导致模型在分布外的真实环境中泛化能力不足。作者计划通过扩展数据采集与在线微调(on-policy fine-tuning)来增强长程鲁棒性。