3D-VLA: A 3D Vision-Language-Action Generative World Model

01 动机

现有视觉-语言-动作（VLA）模型依赖二维输入，无法充分理解物理世界的三维结构；同时，它们直接从感知映射到动作，缺乏对世界动态的更广泛理解——即世界模型能力的缺失。

"Current embodied models learn a direct mapping from perception to action, devoid of a broader understanding of the dynamics of the world."

人类在行动前会在脑海中想象执行结果：拿起一杯水后，杯子的位置会如何变化？3D-VLA 正是赋予模型这种想象力——通过生成目标图像和目标点云来显式建模操作后的场景变化，进而指导机器人规划。

3D Embodied Instruction Tuning Dataset 示例 — 图1：3D Embodied Instruction Tuning Dataset 的样本示例，涵盖多种机器人操作场景。数据集包含来自12个机器人数据集和人-物交互数据集的 316k 条episode、共 2M 个3D-language-action 数据对，支持具身问答、任务描述、目标定位与动作规划等任务类型。

2M3D-language-action 数据对

316k总 episode 数

12Open-X Embodiment 子数据集

68%RLBench Put Knife 成功率

02 方法

3D-VLA 基于 BLIP2-FlanT5XL 构建，通过引入交互token（interaction tokens）扩展语言模型的表达空间，并对接预训练的具身扩散模型（embodied diffusion models）实现多模态目标生成，最终输出离散化的7-DoF机器人动作序列。

3D-VLA 整体框架 — 图2：3D-VLA 整体 pipeline。输入为RGB-D图像和自然语言指令，经过3D-LLM骨干网络（Q-Former + FlanT5）进行推理，通过特殊目标生成token触发具身扩散模型生成RGB-D目标图像或目标点云，同时输出离散化的7-DoF动作token序列。

交互 Token（Interaction Tokens）

为了使语言模型能够理解并操作3D空间信息，3D-VLA 引入了四类特殊token：

<obj> 对象token：标注句子中被操作的物体名词，如 <obj>a chocolate bar</obj>[loc tokens]。
<loc0-255> 位置token：6个离散token表示物体的轴对齐3D包围盒（AABB），实现精确的空间定位。
<scene> 场景token：封装静态场景嵌入，支持模型理解完整的3D场景上下文。
动作token（Action Tokens）：将7-DoF机器人控制离散化为 <aloc0-255>（手臂位置）、<arot0-255>（旋转）、<gripper0/1>（夹爪状态）三组token，以 <ACT_SEP> 分隔。

具身扩散模型（Embodied Diffusion Models）

3D-VLA 预训练了两个扩散模型以支持多模态目标生成：

RGB-D 目标图像生成

输入当前RGB-D图像与操作指令，生成操作执行后的目标RGB-D图像。模型通过 <image></image> token触发，经transformer投影仪对接预训练扩散解码器。

点云目标生成

生成操作后场景的目标点云分布。模型通过 <pcd></pcd> token触发，解码为结构化的三维点云表示，用于基于点云的规划器。

数据集构建：3D Embodied Instruction Tuning Dataset

从12个机器人操控数据集（Open-X Embodiment）和人-物交互数据集（Epic-Kitchens、HOI4D）中构建。深度图像通过 ZoeDepth 估计，光流辅助精炼点云，3D包围盒自动提取，语言多样化借助 ChatGPT 实现。最终获得 316k episodes、2M 3D-language-action 数据对，涵盖具身问答、任务描述、目标定位、目标生成和动作规划五类任务。训练分两阶段：预训练（6×V100 32GB，30 epochs）和对齐（6×V100 64GB，20 epochs）。

03 实验

在三大任务维度进行系统评测：3D推理与定位、多模态目标生成、具身动作规划。基线涵盖 BLIP2 FlanT5XL、CoVLM、Instruct-P2P、Point-E、LanCon-Learn、MCIL 等。

3D 推理与定位（Table 1 & 2）

任务	指标	BLIP2 FlanT5XL	3D-VLA
Embodied QA（RoboVQA）	BLEU-4	10.11	26.80
Embodied QA	METEOR	11.41	23.72
Embodied QA	EM@1	10.31	24.53
Task Caption	BLEU-4	3.16	34.88
Task Caption	METEOR	—	27.57
3D Localization	IoU	CoVLM: 19.81	29.33
3D Localization	Acc@25	CoVLM: 25.39	42.26
3D Localization	Acc@50	CoVLM: 16.61	27.09

多模态目标生成（Table 3 & 4）

生成类型	方法	PSNR	CLIP Sim	SSIM	FID
RGB 目标图像	Instruct-P2P*	16.67	0.941	0.628	0.178
RGB 目标图像	3D-VLA	17.21	0.920	0.636	0.177

生成类型	方法	P-FID ↓	Chamfer-L₁ ↓
点云生成	Point-E	5.241	0.159
点云生成	3D-VLA	4.796	0.139

图3：RGB-D 目标图像生成可视化。第1行来自测试集，第2行来自未见环境（unseen environments）。3D-VLA 能够准确预测操作执行后的场景状态，为机器人提供可视化的规划目标。

具身动作规划（Table 5 & 6）

测试任务（RLBench）	LanCon-Learn	3D-VLA
Put Knife on Chopping Board	28.8%	68%
Take Umbrella Out of Umbrella Stand	45.6%	52%
Pick Up Cup	23.2%	40%
Pick Up Cup（未见环境）	—	24%

RLBench 任务可视化与 CALVIN 长程规划结果 — 图4：RLBench 上的RGB-D目标图像与点云可视化（上），以及 CALVIN 长程规划设置下的任务完成情况（下）。在CALVIN基准上，3D-VLA 的单任务成功率（44.7%）和连续两任务成功率（16.3%）均显著超越 MCIL 基线（28.2% 和 2.5%）。

CALVIN 长程规划结果（Table 6）

连续完成任务数	1	2	3	4	5
MCIL	28.2%	2.5%	0.3%	0%	0%
3D-VLA	44.7%	16.3%	8.1%	1.6%	0%

04 局限性

注：论文未设独立的 Limitations 章节。以下条目综合论文 Impact Statement 中明确陈述的内容（标注为「作者指出」）及从设计方案中推断的局限（标注为「推断」）。

真实环境部署风险（作者指出）

论文在 Impact Statement 中明确指出：真实世界的机器人部署存在碰撞风险，需要人工监督加以缓解。模型目前主要在仿真环境（RLBench、CALVIN）中验证，真实机器人上的零样本迁移能力尚未全面评估。

开环控制假设（推断）

动作预测采用开环控制（open-loop control），模型不利用执行过程中的观察历史来修正动作序列。对比基线（如 LanCon-Learn）同样基于此假设，但实际任务执行中闭环反馈更为鲁棒。

深度估计质量限制（推断）

数据集中大量RGB-D数据由 ZoeDepth 估计获得，而非真实深度传感器采集。估计深度的噪声和域偏移可能影响3D感知精度，尤其在涉及精细操作的任务中。

域特化训练依赖（作者指出）

论文实验表明，在特定任务上进行域特化微调能显著提升性能；零样本迁移至未见环境时表现下降（如 Pick Up Cup 从 40% 降至 24%），说明模型泛化能力仍有提升空间。