机器人 · Embodied AI · arXiv 2024

3D-VLA

A 3D Vision-Language-Action Generative World Model
Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan  ·  UMass Amherst & MIT

3D-VLA 将三维感知、语言推理与机器人动作通过生成式世界模型无缝连接:不仅能回答空间问题、定位目标,还能生成RGB-D目标图像和点云来指导机器人规划,首次在统一框架内同时覆盖感知、生成与执行三大能力。

arXiv 2403.09631 2024-03-14 2M 3D-language-action pairs 📄 arXiv:2403.09631 🌐 Project Page
3D-VLA embodied world model 视觉-语言-动作 robot manipulation goal generation 3D perception 机器人操作 foundation model

01 动机

现有视觉-语言-动作(VLA)模型依赖二维输入,无法充分理解物理世界的三维结构;同时,它们直接从感知映射到动作,缺乏对世界动态的更广泛理解——即世界模型能力的缺失。

"Current embodied models learn a direct mapping from perception to action, devoid of a broader understanding of the dynamics of the world."

人类在行动前会在脑海中想象执行结果:拿起一杯水后,杯子的位置会如何变化?3D-VLA 正是赋予模型这种想象力——通过生成目标图像和目标点云来显式建模操作后的场景变化,进而指导机器人规划。

3D Embodied Instruction Tuning Dataset 示例
图1:3D Embodied Instruction Tuning Dataset 的样本示例,涵盖多种机器人操作场景。数据集包含来自12个机器人数据集和人-物交互数据集的 316k 条episode、共 2M 个3D-language-action 数据对,支持具身问答、任务描述、目标定位与动作规划等任务类型。
2M3D-language-action 数据对
316k总 episode 数
12Open-X Embodiment 子数据集
68%RLBench Put Knife 成功率

02 方法

3D-VLA 基于 BLIP2-FlanT5XL 构建,通过引入交互token(interaction tokens)扩展语言模型的表达空间,并对接预训练的具身扩散模型(embodied diffusion models)实现多模态目标生成,最终输出离散化的7-DoF机器人动作序列。

3D-VLA 整体框架
图2:3D-VLA 整体 pipeline。输入为RGB-D图像和自然语言指令,经过3D-LLM骨干网络(Q-Former + FlanT5)进行推理,通过特殊目标生成token触发具身扩散模型生成RGB-D目标图像或目标点云,同时输出离散化的7-DoF动作token序列。

交互 Token(Interaction Tokens)

为了使语言模型能够理解并操作3D空间信息,3D-VLA 引入了四类特殊token:

具身扩散模型(Embodied Diffusion Models)

3D-VLA 预训练了两个扩散模型以支持多模态目标生成:

RGB-D 目标图像生成

输入当前RGB-D图像与操作指令,生成操作执行后的目标RGB-D图像。模型通过 <image></image> token触发,经transformer投影仪对接预训练扩散解码器。

点云目标生成

生成操作后场景的目标点云分布。模型通过 <pcd></pcd> token触发,解码为结构化的三维点云表示,用于基于点云的规划器。

数据集构建:3D Embodied Instruction Tuning Dataset

从12个机器人操控数据集(Open-X Embodiment)和人-物交互数据集(Epic-Kitchens、HOI4D)中构建。深度图像通过 ZoeDepth 估计,光流辅助精炼点云,3D包围盒自动提取,语言多样化借助 ChatGPT 实现。最终获得 316k episodes、2M 3D-language-action 数据对,涵盖具身问答、任务描述、目标定位、目标生成和动作规划五类任务。训练分两阶段:预训练(6×V100 32GB,30 epochs)和对齐(6×V100 64GB,20 epochs)。

03 实验

在三大任务维度进行系统评测:3D推理与定位、多模态目标生成、具身动作规划。基线涵盖 BLIP2 FlanT5XL、CoVLM、Instruct-P2P、Point-E、LanCon-Learn、MCIL 等。

3D 推理与定位(Table 1 & 2)

任务指标BLIP2 FlanT5XL3D-VLA
Embodied QA(RoboVQA)BLEU-410.1126.80
Embodied QAMETEOR11.4123.72
Embodied QAEM@110.3124.53
Task CaptionBLEU-43.1634.88
Task CaptionMETEOR27.57
3D LocalizationIoUCoVLM: 19.8129.33
3D LocalizationAcc@25CoVLM: 25.3942.26
3D LocalizationAcc@50CoVLM: 16.6127.09

多模态目标生成(Table 3 & 4)

生成类型方法PSNRCLIP SimSSIMFID
RGB 目标图像Instruct-P2P*16.670.9410.6280.178
3D-VLA17.210.9200.6360.177
生成类型方法P-FID ↓Chamfer-L₁ ↓
点云生成Point-E5.2410.159
3D-VLA4.7960.139
RGB-D 目标图像生成可视化
图3:RGB-D 目标图像生成可视化。第1行来自测试集,第2行来自未见环境(unseen environments)。3D-VLA 能够准确预测操作执行后的场景状态,为机器人提供可视化的规划目标。

具身动作规划(Table 5 & 6)

测试任务(RLBench)LanCon-Learn3D-VLA
Put Knife on Chopping Board28.8%68%
Take Umbrella Out of Umbrella Stand45.6%52%
Pick Up Cup23.2%40%
Pick Up Cup(未见环境)24%
RLBench 任务可视化与 CALVIN 长程规划结果
图4:RLBench 上的RGB-D目标图像与点云可视化(上),以及 CALVIN 长程规划设置下的任务完成情况(下)。在CALVIN基准上,3D-VLA 的单任务成功率(44.7%)和连续两任务成功率(16.3%)均显著超越 MCIL 基线(28.2% 和 2.5%)。

CALVIN 长程规划结果(Table 6)

连续完成任务数12345
MCIL28.2%2.5%0.3%0%0%
3D-VLA44.7%16.3%8.1%1.6%0%

04 局限性

注:论文未设独立的 Limitations 章节。以下条目综合论文 Impact Statement 中明确陈述的内容(标注为「作者指出」)及从设计方案中推断的局限(标注为「推断」)。
真实环境部署风险(作者指出)

论文在 Impact Statement 中明确指出:真实世界的机器人部署存在碰撞风险,需要人工监督加以缓解。模型目前主要在仿真环境(RLBench、CALVIN)中验证,真实机器人上的零样本迁移能力尚未全面评估。

开环控制假设(推断)

动作预测采用开环控制(open-loop control),模型不利用执行过程中的观察历史来修正动作序列。对比基线(如 LanCon-Learn)同样基于此假设,但实际任务执行中闭环反馈更为鲁棒。

深度估计质量限制(推断)

数据集中大量RGB-D数据由 ZoeDepth 估计获得,而非真实深度传感器采集。估计深度的噪声和域偏移可能影响3D感知精度,尤其在涉及精细操作的任务中。

域特化训练依赖(作者指出)

论文实验表明,在特定任务上进行域特化微调能显著提升性能;零样本迁移至未见环境时表现下降(如 Pick Up Cup 从 40% 降至 24%),说明模型泛化能力仍有提升空间。