ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

01 动机

现有 VLA 模型在视觉感知上存在根本性缺陷——注意力分散，难以精准定位目标操作物体，导致在杂乱场景和精细任务中表现不佳。

"visual attention is always dispersed" rather than focusing on target objects. Existing visual grounding methods either explicitly input cropped images or output bounding boxes in chain-of-thought fashion, but "do not fundamentally refine the attention allocation."

作者观察到，人眼感知的本质是：眼睛对焦的小区域清晰，周围区域模糊。现有 explicit grounding（输入裁剪图像）和 chain-of-thought grounding（输出 bounding box 坐标）两类方法都无法从根本上改变 LLM 内部的注意力分配。ReconVLA 通过隐式重建凝视区域，让模型在特征层面聚焦目标，而非依赖外部后处理。

ReconVLA teaser — 凝视区域高亮与注意力热图 — **图 1：ReconVLA teaser。**左侧：多物体桌面场景（"stack blocks" 任务）；中间：模型自动定位的"凝视区域"高亮；右侧：ReconVLA 的注意力热图明显集中于目标积木，而 baseline 的注意力则分散在整张图像上。

3.95CALVIN ABC→D 平均完成序列长度（最优）

64.1%CALVIN ABC→D 5/5 子任务成功率（最优）

+20.2%精细 "stack block" 任务 vs. baseline

2M+预训练数据量（轨迹样本）

**图 2：三种 grounding 范式对比。**(a) Explicit Grounding (EG)：将裁剪后的目标区域图像与原图一并输入；(b) Chain-of-Thought Grounding (CG)：在动作序列之前先输出 bounding box 坐标；(c) Implicit Grounding (IG，即 ReconVLA)：输出 reconstructive tokens，驱动 diffusion transformer 重建凝视区域——无需显式坐标，注意力改变发生在特征空间内部。

02 方法

ReconVLA 在标准 VLA 骨干（LLaVA-7b，Qwen2-7B LLM + siglip-so400m-patch14-384 视觉编码器）的基础上，新增一个与动作输出并行的重建分支：LLM 同时输出 action tokens 和 reconstructive tokens，后者驱动一个 diffusion transformer denoiser 从噪声中恢复凝视区域的 latent 特征。

ReconVLA 架构图 — **图 3：ReconVLA 整体架构。**输入为多视角图像与文本指令；视觉编码器提取图像特征，LLM 同时自回归生成 action tokens（动作）和 reconstructive tokens（重建引导）；diffusion denoiser 以 reconstructive tokens 为条件，从噪声 z_t 恢复凝视区域的 latent z_0；连续 VAE 解码为实际图像像素用于监督。整体损失 = 动作交叉熵损失 + 扩散重建损失。

核心损失函数

总损失同时优化动作预测与视觉重建：

ℒ_ReconVLA = ℒ_VLA^action + ℒ_VLA^visual

其中动作损失为 cross-entropy 监督离散动作 token；视觉重建损失为扩散目标：

ℒ_VLA^visual(𝒉_R, I′) = 𝔼_{t,ϵ}[||𝒟(𝒛_t; 𝒉_R, t) − ϵ||²]

𝒉_R 为 LLM 输出的 reconstructive tokens，I′ 为凝视区域图像，𝒟 为由 Transformer encoder blocks 构成的 denoiser。通过对重建损失和动作损失同时反向传播，两个分支共享并强化相同的特征空间。

凝视区域（Gaze Region）的含义与作用

凝视区域并非简单的 bounding box 裁剪，而是"the target manipulated region"，其作用有三：(1) 在多物体杂乱场景中聚焦正确目标；(2) 增强对目标物体的细节感知；(3) 在长时序任务中辅助子任务规划。

大规模预训练数据集

作者通过在 BridgeData V2、LIBERO 和 CALVIN 数据集上微调 Grounding DINO 获取凝视区域标注，构建了包含超过 100k 条轨迹、200万个样本的配对数据集（原图 + 凝视区域裁剪图），用于预训练重建能力。预训练后再进行任务特定微调。

03 实验

在 CALVIN 模拟基准（Franka Panda 机器人，34 种任务，4 个场景）和真实机器人平台（AgileX PiPer 6-DoF 机械臂）上进行评测，指标为 500 次 rollout 的逐子任务成功率及平均完成序列长度。

Paradigm 对比（CALVIN ABC→D，Table 1）

方法	1/5	2/5	3/5	4/5	5/5	Avg. Len.
Baseline（标准 VLA）	88.8%	76.1%	63.7%	57.0%	49.0%	3.36
Explicit Grounding (EG)	94.4%	82.5%	70.9%	62.2%	50.2%	3.61
CoT Grounding (CG)	47.0%	14.3%	1.6%	0.0%	0.0%	0.63
ReconVLA (IG, Ours)	95.6%	87.6%	76.9%	69.3%	64.1%	3.95

CoT Grounding "performance is even worse" 因为仅输出 bounding box 坐标不足以提供精细操作所需的精度。ReconVLA 在所有子任务长度上均取得最高成功率。

与 State-of-the-Art 对比（CALVIN ABC→D，Table 3）

方法	类别	1/5	2/5	3/5	4/5	5/5	Avg. Len.
GR-1	生成式	85.4%	71.2%	59.6%	49.7%	40.1%	3.06
CLOVER	生成式	96.0%	83.5%	70.8%	57.5%	45.4%	3.53
OpenVLA	大型 VLA	91.3%	77.8%	62.0%	52.1%	43.5%	3.27
UniVLA	大型 VLA	95.5%	85.8%	75.4%	66.9%	56.5%	3.80
ReconVLA (Ours)	重建式 VLA	95.6%	87.6%	76.9%	69.3%	64.1%	3.95

ReconVLA 在 5/5 子任务上超越 GR-1 超过 20%、超越 OpenVLA 20.6%、超越 UniVLA 7.6%。在 CALVIN ABCD→D 上也取得平均序列长度 4.23，与 GR-1 的 4.21 相当，超越 RoboFlamingo（4.08）和 VLAS（3.70）。

注意力可视化对比 — **图 4：视觉注意力对比（CALVIN + 真实场景）。**上行：baseline 模型注意力"dispersed attention patterns or predominantly attends to incorrect region"；下行：ReconVLA 注意力显著集中于目标物体，"forcing the model to focus on specific image contents with higher attention values"。

消融实验（Table 2）

配置	1/5	2/5	3/5	4/5	5/5	Avg. Len.
完整 ReconVLA	95.6%	87.6%	76.9%	69.3%	64.1%	3.95
无预训练	96.8%	86.9%	76.9%	64.9%	58.2%	3.85
无凝视区域（全图重建）	89.8%	80.3%	67.7%	56.6%	46.5%	3.42
仅 Baseline	88.8%	76.1%	63.7%	57.0%	49.0%	3.36

消融显示：凝视区域（gaze region）是核心贡献，"proves to be more effective" 于全图重建；预训练"substantially enhances generalization"尤其在长序列任务上。精细操作任务 "stack block" 中，ReconVLA 以 79.5% 胜过 baseline 的 59.3%，提升 20.2%。

真实机器人实验

在四项已知任务上，ReconVLA 的成功率均明显优于 OpenVLA 和 PD-VLA（Put Fruit 和 Stack Bowls 约 90%，Flip Cups 约 75%，Bus Table 约 70%）。在未见物体泛化测试中，OpenVLA 和 PD-VLA 成功率接近 0%，而 ReconVLA 仍维持较高成功率，展现出强大的视觉泛化能力。

04 局限性

Note：论文正文未设独立 Limitations 章节。以下各点来源说明：标注为 stated 表示论文有明确陈述；标注为 inferred 表示由方法设计推断。

凝视区域标注依赖 Grounding DINO（inferred）

预训练数据的凝视区域标注来自对 Grounding DINO 的微调。若目标物体描述模糊或视觉特征相近，检测器的准确性将影响重建质量，进而影响 VLA 的注意力引导效果。

推理阶段增加 diffusion denoiser 开销（inferred）

相比标准 VLA，ReconVLA 在推理时需要额外运行 diffusion denoiser 来重建凝视区域 latent，增加了计算量和延迟。论文未报告推理速度指标。

真实机器人实验规模有限（inferred）

真实机器人测试仅限于 4 种任务、每任务 20 次 trial，硬件平台也仅为单一型号（AgileX PiPer）。跨平台、跨任务的泛化性有待进一步验证。

对高速精细操作的适用性未验证（inferred）

论文实验主要集中在桌面抓取与摆放等较低速任务。对于需要高频闭环控制的精细操作（如插销、螺丝拧紧），重建分支能否保持实时性尚未评估。