机器人学 · 视觉-语言-动作 · arXiv 2605.24642

几何基础模型对视觉-语言-动作模型的影响研究

Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models
Yurou Yang, Muyuan Lin, Roberto Martin-Martin, Martin Labrie, Shreekant Gayaka, Cheng-Hao Kuo, Luca Carlone  ·  Amazon Personal Robotics Group · UT Austin · MIT

近期工作探索将几何基础模型(GFM,如 VGGT)与机器人操作用的视觉-语言-动作模型(VLA,如 GR00T-N1.5)相结合的可能性。 然而,现有 VLA 本身是否具备足够的几何理解能力?注入几何信息的最佳架构是什么?其他设计选择又如何影响效果? 本文针对上述三个问题进行了系统性实验分析,并提供了迄今为止最严格的量化评估。

arXiv 2605.24642v1 2026 年 5 月 GR00T-N1.5 + VGGT 论文页面 →
关键词geometric foundation modelVision-Language-ActionVLA机器人操作几何感知融合VGGTEarly Fusion深度估计线性探针GR00T

01 动机

现代 VLA 在多项操作任务中表现出色,但它们的视觉编码器(通常为 CLIP 风格)主要针对语义理解优化, 对于机器人精准操作所需的深度、法线等几何信息建模能力有限。 与此同时,以 VGGT 为代表的几何基础模型(GFM)具备卓越的 3D 重建能力, 自然引发了"将 GFM 的几何感知能力注入 VLA"的研究思路。 然而,此前工作缺乏对以下问题的严格回答:

"(i) 现代 VLA 本身是否已具备足够的几何理解能力?(ii) 将几何信息注入 VLA 的最佳架构是什么?(iii) 影响几何 VLA 性能的其他设计选择(训练数据规模、摄像头数量、重建质量)各有怎样的作用?"
VLA 架构与三种几何注入策略对比图
图 1: (a) 标准 VLA 架构;(b)-(d) 将几何基础模型(如 VGGT)的 token 注入 VLA 的三种关键策略: Early Fusion(在 LLM 前融合)、Late Fusion(在 LLM 后融合)、Spatial Forcing(训练时对齐损失)。

几何差距(Geometric Gap)的量化

作者通过线性探针(linear probing)方法量化 VLA 与 GFM 之间的几何差距—— 在固定预训练权重的基础上,训练一个线性层预测稠密深度图,以此评估各模型内部 token 所携带的几何信息量。

0.73 mGR00T VLM 探针
RMSE 深度误差
0.41 mVGGT 探针
RMSE 深度误差
0.63GR00T VLM 探针
δ₁ 分数
0.89VGGT 探针
δ₁ 分数

标准 VLA(GR00T-N1.5)的深度预测 RMSE 约为 VGGT 的两倍,δ₁ 分数也明显更低, 证明 VLA 确实存在显著的"几何差距"。论文进一步发现: "深度信息在视觉编码器之后便已丢失(the depth information is already lost after the vision encoder)"

线性探针深度预测可视化
图 2(a): 线性探针深度预测对比中的 RGB 输入图像。 标准 VLA(GR00T 视觉编码器及 VLM)输出的深度图质量明显低于 VGGT 探针, 而几何 VLA(Early/Late Fusion)借助 VGGT token 能大幅恢复几何信息。

02 方法

本文以 GR00T-N1.5 为基础 VLA,以 VGGT 为几何基础模型,设计并对比了三种将几何 token 注入 VLA 的策略, 同时保持底层实现细节尽可能一致,以确保"苹果对苹果"的公平比较。 融合模块统一采用带门控的交叉注意力机制。

Early Fusion 与 Late Fusion 架构细节
图 1(b-c)细节: Early Fusion 将 VGGT 几何 token 与视觉编码器输出融合后送入 LLM; Late Fusion 则在 LLM 输出之后、动作专家之前完成融合。两种策略均采用带注意力门控的交叉注意力模块。

Early Fusion(早期融合)

VGGT 与 VLA 接收相同图像输入,生成几何 token G。 随后,VLA 视觉编码器输出 VeG 通过融合模块合并, 得到的融合 token 替代原始视觉 token 送入 LLM。 直觉上,Early Fusion 将 GFM 视为一个额外的视觉编码器。

Late Fusion(晚期融合)

几何 token G 与 LLM 的视觉输出 Vl 融合, 融合后的 token 替代 Vl 送入动作专家(action expert)。 这种策略尝试在动作生成前用几何信息丰富 VLM 的输出。

Spatial Forcing(空间强制)

架构与标准 VLA 相同,不做结构修改。仅在训练时加入对齐损失(alignment loss), 以余弦相似度衡量,鼓励 LLM 内部 token 与 GFM token 对齐, 促使 VLM 在内部保留更多几何信息以供动作专家使用。

交叉注意力融合模块

Early Fusion 与 Late Fusion 使用统一的融合实现:标准缩放点积交叉注意力, 加上一个注意力门控(attention gating)残差项: X̃ = X + A ⊙ Z,门控矩阵 A 初始化接近零, 避免融合信号在训练初期使动作专家"偏离分布"。 LoRA rank = 8,仅训练交叉注意力层参数。

注意力掩码可视化
融合模块注意力掩码: Early Fusion(左)与 Late Fusion(右)中, VLA token 对 VGGT 几何 token 的注意力权重可视化, 展示了跨模态几何信息的传递模式。

训练设置

硬件:NVIDIA A100(320 GB 显存)。微调(finetuning)训练 100 个 epoch, 中间训练(mid-training)协议为 10 + 50 个 epoch。 学习率 1×10⁻⁴,批大小 12。 VLA 视觉 token 使用 2D 位置编码,VGGT token 使用 3D 位置编码, 以区分模态。每次训练约需 2–3 天。

03 实验

在 RoboCasa 仿真基准(8 个厨房操作任务,每任务 5 个演示,每演示 15 次测试,共 600 次试验)、 LIBERO 基准(LIBERO-SPATIAL/OBJECT/GOAL/100),以及 Unitree G1 人形机器人真实场景(90 次试验,pick-and-place)上进行评测。 统计显著性检验采用 McNemar 检验(报告 p 值)。

RoboCasa 基准对比结果(Table 2)

方法 CabToCtr CtrToCab CtrToMicrowave CtrToSink CtrToStove MicrowaveToCtr SinkToCtr StoveToCtr 平均 (p值)
DP34.02.06.00.00.06.00.00.02.3
Pi028.018.036.070.036.022.016.044.033.8
Pi0-Fast30.048.020.056.064.046.062.060.048.3
RS-CL60.068.040.068.072.048.068.054.059.0
Video Policy48.052.022.048.054.028.056.070.047.3
GR00T-N1.5(基线)42.774.773.393.377.358.765.388.071.7
Early Fusion32.069.365.388.073.362.780.086.769.7 (p=0.399)
Late Fusion46.772.074.785.369.369.369.381.371.0 (p=0.806)
Spatial Forcing29.368.066.776.072.060.084.090.768.3 (p=0.154)
Early Fusion(中间训练)52.072.069.394.780.068.081.384.075.2 (p=0.104)
关键发现: 标准微调(finetuning)下,三种几何 VLA 策略均未能在 RoboCasa 上取得统计显著的性能提升(所有 p 值 > 0.1)。但引入中间训练(mid-training)协议后,Early Fusion 平均成功率提升至 75.2%,高于基线的 71.7%,且差距更为稳健。论文指出部分仿真基准已趋饱和,限制了提升空间。

单摄像头配置(RoboCasa,单摄像头)

在仅使用单个摄像头的配置下,GR00T-N1.5 基线平均成功率仅为 17.2%, 而 Early Fusion 提升至 21.5%(p=0.030),达到统计显著水平。 这说明在视觉信息不足时,几何融合带来的收益更为明显。

Early Fusion 在不同 epoch 的成功率动态
图:Early Fusion 在 RoboCasa 不同训练 checkpoint 的成功率动态。 训练曲线因任务而异,存在较大波动,说明针对特定任务的微调动态高度依赖于任务本身。

真实机器人结果(Unitree G1 人形机器人,Table 3)

方法 接近(Grasp stage) 提起(Lift) 放置(Placement) 总体(Overall)
GR00T-N1.5(基线) 57.78% 51.92% 85.19% 22.22%
Early Fusion 84.44% (p<0.001) 60.53% (p=0.824) 89.13% (p=1.000) 27.78%
Late Fusion 57.78% (p=0.855) 59.62% (p=1.000) 93.55% (p=1.000) 25.56%

在真实机器人测试中,Early Fusion 的抓取接近(approach/grasp)阶段成功率从基线的 57.78% 大幅提升至 84.44%(p<0.001),达到统计显著, 表明几何信息对需要精准空间定位的操作阶段确实有益。

融合模块消融实验结果
图:Early Fusion 融合模块消融实验。 对 Early Fusion 策略内部组件进行消融,分析不同设计选择(如注意力门控、位置编码类型等)的贡献。 注意力门控(attention gating)被证明对策略有效性至关重要。

VGGT 重建质量的影响

分析 VGGT 深度重建误差与操作成功率之间的关系, Spearman 相关系数 ρ = −0.202,呈温和的负相关—— 重建质量越好,成功率略有提升,但相关性并不强烈。 这说明 GFM 重建质量对最终性能的影响是存在的,但并非决定性因素。

深度误差与成功率的相关性分析
图:VGGT 深度误差与 RoboCasa 操作成功率的散点图。 Spearman 相关系数 ρ = −0.202,呈温和负相关,说明更好的几何重建质量与更高的任务成功率相关联, 但关系并不强烈。

消融分析

论文对多项设计选择进行了系统消融:

04 局限性

说明: 以下局限性部分为论文明确陈述(stated),部分为根据实验设计推断(推断/inferred)。
实验局限于单一 VLA + GFM 组合(stated)

"我们的分析局限于所选择的 VLA(GR00T-N1.5)和 GFM(VGGT)的组合。 尽管存在许多其他 VLA 和 GFM,我们无法将结论推广至其他未经测试的组合。" 不同 VLA 架构(如 Pi0、OpenVLA 等)或不同 GFM 可能产生不同结论。

仿真基准趋于饱和,限制了提升空间(stated)

"部分仿真基准已趋饱和(some of the simulation benchmarks are saturated), 因此限制了改进空间(limiting the margin of improvement)。" 例如 RoboCasa 中某些任务基线成功率已达 88–93%,几何信息几乎无法带来额外提升。

真实机器人验证规模有限(stated)

真实机器人实验仅在 Unitree G1 上进行了 90 次试验,涵盖 3 类物体的 pick-and-place 任务, 场景多样性有限。大多数结论依赖于仿真基准,真实世界的泛化能力有待进一步验证。

计算资源制约了设计空间探索(stated)

"由于计算资源限制,我们未对所有设计选择进行完整消融。" 每个模型的训练耗时 2–3 天(NVIDIA A100),导致超参数搜索空间受限, 部分潜在更优的架构变体(如多层融合、不同融合位置等)未能充分探索。

统计显著性检验的局限(推断/inferred)

虽然使用 McNemar 检验提供了严格的统计基础,但每个任务的试验次数(15 次/episode)有限, 检验功效(statistical power)可能不足以检测出较小的性能差异。 部分结论(如 Early Fusion 中间训练 p=0.104,刚好超过 0.1 显著性阈值)仍处于边界区域。

GFM 推理开销(推断/inferred)

引入 VGGT 作为并行编码器会显著增加推理时的计算量和显存需求, 论文未详细分析该开销对实时机器人控制(通常要求 >10 Hz 控制频率)的影响, 这对实际部署构成潜在障碍。