3D CAVLA: 利用深度与三维上下文提升 VLA 模型对未见任务的泛化能力

01 动机

VLA 模型通过端到端训练将视觉感知、语言理解和动作生成统一起来，在分布内任务上表现优秀，但面对新场景时泛化能力不足。现有方法主要依赖二维 RGB 感知，缺乏三维空间理解，导致机器人在复杂操作任务中难以推广到未见过的任务组合。

"Integrating reasoning within VLA training objectives can improve out-of-domain performance." — 论文核心主张

作者提出三个核心问题：（1）如何将结构化推理引入 VLA 训练目标？（2）如何利用深度信息增强三维空间感知？（3）如何让模型聚焦于任务相关的视觉区域？3D CAVLA 通过 chain-of-thought 推理分解、深度点云嵌入和 TA-ROI 池化三管齐下，系统性地解决上述挑战，且无需重设计基础架构，以 LoRA 微调方式即可叠加到现有 VLA 模型上。

**图 1：3D CAVLA 整体架构。**"3D-CAVLA integrates chain-of-thought style narrative task descriptions, depth embeddings and region of interest pooling to improve scene awareness." 系统以 RGB-D 图像和语言指令为输入，同时生成 CoT 推理步骤、点云深度嵌入和 TA-ROI 掩码，三路特征融合后送入 OpenVLA-OFT 生成机器人动作。

98.1%LIBERO 分布内任务平均成功率（双摄像头 + 深度）

+8.8%未见任务绝对成功率提升（vs. OpenVLA-OFT）

+25%真实机器人未见任务成功率提升

3×训练收敛速度提升（3K vs. 10K epochs）

02 方法

3D CAVLA 在 OpenVLA-OFT 基础上叠加三个正交模块：chain-of-thought 任务分解、深度点云编码器和任务感知 ROI 池化（TA-ROI）。三个组件均以离线预计算方式融入训练，不改变基础 VLA 的推理接口，LoRA 微调使参数量增加极小。

1. Chain-of-Thought 链式推理指令

利用冻结的大语言模型（GPT）将任务描述分解为可逐步执行的子步骤序列。例如，"Grab the ball and place it in the basket" 被改写为 "Locate ball → grasp at center → move over basket → release"。这种结构化分解帮助模型在未见任务中进行组合式推理，冻结 LLM 防止过拟合，生成的 CoT 指令在训练时与原始任务描述拼接后输入到 VLA。

2. 深度点云嵌入

将 RGB-D 输入通过相机内参反投影为三维点云，公式为：

Z_b,h,w = D_b,h,w
X_b,h,w = [(U_h,w − c_x) / f_x] × Z_b,h,w
Y_b,h,w = [(V_h,w − c_y) / f_y] × Z_b,h,w

再通过轻量级 PointNet 风格编码器（约 1M 参数）提取深度嵌入 d_t，与视觉语言特征拼接后融合。推理开销极小（4.3 Hz vs. 基线 4.4 Hz）。

3. 任务感知 ROI 池化（TA-ROI）

**图 2：TA-ROI 检测流程。**"Task-Aware ROI detection pipeline. Task-relevant entities are identified via named-entity recognition, localized with object detection, and tracked across frames." 依次通过 NER 提取任务相关实体 → Molmo 目标检测 → SAMURAI 跨帧追踪 → 生成二值掩码 M ∈ {0,1}^H×W，池化公式：ṽ_t^ROI = Pool(ṽ_t, M)。训练时随机丢弃 ROI 30% 的样本以增强零样本泛化。

4. 特征融合与训练

深度嵌入 d_t 和 TA-ROI 特征 ṽ_t^ROI 在视觉语言特征拼接之前注入，保持 OpenVLA-OFT 整体架构不变。LoRA 微调应用于全模型，CoT 分解和 ROI 掩码均离线预计算，不增加实时推理复杂度。

03 实验

实验在 LIBERO 仿真基准（分布内 + 10 个未见任务）和真实 Franka 桌面操作（10 个任务，5 个物体，2 个目标区域）上进行。基线包括 OpenVLA-OFT、Diffusion Policy（DP）、ECoT* 和 π₀，评价指标为任务成功率。

LIBERO 仿真基准（分布内）

方法 / 配置	Spatial	Object	Goal	Long	Average
OpenVLA（单摄像头 RGB）	84.7	88.4	79.2	53.7	76.5
CoA-VLA（单摄像头 RGB）	85.3	93.1	85.8	55.0	79.8
3D-CAVLA（单摄像头 RGB）	86.1	94.7	82.9	66.8	82.6
π₀（双摄像头 + 本体感知）	96.8	98.8	95.8	85.2	94.2
OpenVLA-OFT（双摄像头 + 本体感知）	97.6	98.4	97.9	94.5	97.1
3D-CAVLA（双摄像头 + 本体感知 + 深度）	98.2	99.8	98.2	96.1	98.1

零样本泛化（10 个未见任务）

方法	Average (%)	vs. OpenVLA-OFT
Diffusion Policy (DP)	27.0	−9.4
OpenVLA-OFT	36.4	基线
ECoT*	40.6	+4.2
3D-CAVLA	45.2	+8.8

真实机器人 Franka 实验

方法	已见任务	相似任务	未见任务
Diffusion Policy	84.2	46.0	21.8
OpenVLA-OFT	88.6	54.4	30.2
3D-CAVLA	90.0	60.0	38.0

真实机器人实验结果 — **图 3：真实机器人实验。**"Real robot trials. 3D-CAVLA transforms vision-language observations to SE(3) waypoints and binary gripper states for task execution." 实验在 Franka 桌面操作场景中进行，涵盖 5 个物体和 2 个目标区域，已见任务成功率 90.0%，未见任务提升至 38.0%（基线 30.2%）。

消融实验

消融实验在 LIBERO 分布内和未见任务两个维度进行，验证各组件独立贡献：

配置	LIBERO 已见任务 (%)	LIBERO 未见任务 (%)
3D-CAVLA（完整）	98.1	45.2
w/o CoT	97.4	42.4（−2.8）
w/o Depth	97.0	41.0（−4.2）
w/o TA-ROI	98.2	41.4（−3.8）

消融结果表明三个组件对已见任务影响有限，但均显著提升未见任务成功率，尤其深度特征移除后未见任务下降最多（−4.2%），说明三维空间感知是泛化的核心驱动力。

基线失败案例 — **图 4：基线（OpenVLA-OFT）在未见任务上的失败案例。**在组合式新任务中，基线模型的动作轨迹偏离目标区域，无法完成操作，而 3D CAVLA 借助深度感知和 CoT 推理能够正确执行。

04 局限性

说明：以下限制均由作者在论文中明确陈述（stated），部分推断性限制已标注为 inferred。

过拟合于小规模真实机器人数据集（stated）

"In several trials, the policy reverted to executing trajectories resembling previously seen tasks, indicating overfitting to the relatively small dataset used for fine-tuning." 在有限真实数据下微调时，策略容易回退到已见任务的轨迹模式，导致泛化受限。

抓取点附近的策略震荡（stated）

"When approaching the target object, the robot frequently oscillated near the grasp point without completing the action, due to low variation in training images near contact and insufficient cues to trigger grasp closure." 接近目标时，训练数据在接触阶段多样性不足，导致机械臂在抓取点附近来回抖动而无法闭合夹爪。

依赖外部 VLM 的检测精度（stated）

TA-ROI 流程依赖 Molmo 目标检测和 SAMURAI 追踪的准确性。外部模型的误检或漏检会直接影响 ROI 掩码质量，进而影响策略性能。

抓取角度多样性有限（stated）

训练数据中抓取角度多样性不足，导致模型对具有新颖方向的物体抓取失败，真实世界泛化仍存在瓶颈。

管线复杂度较高（inferred）

系统依赖多个冻结外部组件（GPT、Molmo、SAMURAI），增加了工程复杂度和部署难度，与端到端方案相比模块间耦合风险更高。