视觉语言模型 · 3D 几何感知 · 空间推理

G2VLM:几何感知视觉语言模型
统一 3D 重建与空间推理

Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang  ·  Shanghai AI Lab · UCLA · SJTU · FDU · ZJU · USTC · HKU · CUHK

G2VLM 是首个将视觉几何重建与高层空间语义推理统一到单一模型的视觉语言系统。模型采用"双流假说"启发的 Mixture-of-Transformer-Experts 架构,在仅使用 2D 图像输入的前提下,同时实现了竞争性的 3D 点云重建、相机位姿估计,以及多个空间推理基准上的最优性能。

arXiv 2511.21688 模型规模:基于 Qwen2-VL-2B SPAR-Bench 均值 54.87(vs GPT-4o 38.81) arXiv 论文
关键词视觉语言模型3D重建空间推理Mixture-of-Experts几何感知点图估计相机位姿估计DINOv2多视角理解spatial reasoning

01 动机

现有视觉语言模型(VLMs)将图像视为"扁平"的 2D 数据处理,缺乏对三维空间的几何理解能力,导致在需要 3D 空间推理的任务上表现受限。另一方面,专门的视觉几何模型虽能进行精确的 3D 重建,但不具备高层语义理解和自然语言交互能力——两类模型之间存在鸿沟。

"By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing."
G2VLM Teaser
图 1:G2VLM 综合演示。模型能够同时处理空间 3D 重建任务(点图估计、相机位姿估计、单目深度估计)和空间理解推理任务。对于空间推理问题,G2VLM 可直接预测 3D 几何并通过交叉推理给出答案。图片来源:原论文 Figure 1。
54.87SPAR-Bench 均值
(本文 G2VLM-SR)
38.81GPT-4o 在 SPAR-Bench
的均值(对比基线)
48.33MindCube 均值
(本文最优)
2B参数量,媲美
更大规模的模型

为何现有方法不足?

02 方法

G2VLM 以"两流假说"(two-streams hypothesis)为设计灵感,采用 Mixture-of-Transformer-Experts(MoT) 架构,将专门的几何感知专家(Geometric Perception Expert)与语义感知专家(Semantic Perception Expert)融合在同一 Transformer 主干中,通过共享的多模态自注意力层实现特征交互。

G2VLM Architecture
图 2:G2VLM 架构图。模型包含两个专家流:几何感知专家("where pathway",蓝色流)负责低层 3D 视觉信息提取;语义感知专家("what pathway",橙色流)负责多模态理解。两流在每个 Transformer 块中通过共享的多模态自注意力进行交互。图片来源:原论文 Figure 2。

几何感知专家(Geometric Expert)

DINOv2 编码器为骨干,提取低层视觉信息,将图像 token 映射至 LLM hidden states,输出 3D 几何预测(相机位姿 + 点图)。使用全局注意力(Global Attention)机制,实验证明优于帧内注意力(Frame-Att.)和混合注意力(Mixed-Att.)方案。

语义感知专家(Semantic Expert)

基于预训练的 Qwen2-VL-2B 模型构建,保留其强大的多模态语言理解和指令跟随能力。以 CLIP 编码器提取语义特征,与几何专家的 DINO 特征互补——消融实验证明双编码器设计(DINO + CLIP)优于单编码器方案。

G2VLM Unified Design
图 3:G2VLM 统一模型设计。模型将几何感知专家(3D 重建)和语义感知专家(多模态理解)集成于同一框架。所有 token 在每个 Transformer 块中均可进行共享多模态自注意力运算。图片来源:原论文 Figure 3。

两阶段训练策略

03 实验

G2VLM 在两大类任务上进行评测:(1)视觉几何任务(单目深度估计、点图估计、相机位姿估计);(2)空间理解与推理任务(SPAR-Bench、MindCube、OST-Bench、OmniSpatial)。

表 1a:视觉几何任务结果

模型 Sintel Abs Rel↓ NYU-v2 Abs Rel↓ ETH3D Acc.↓ 7-Scenes Acc.↓ Co3Dv2 RRA@30↑
VGGT 0.335 0.056 0.28 0.022 98.96
π³ 0.277 0.054 0.194 0.016 99.05
G2VLM(本文) 0.297 0.062 0.414 0.046 97.91

注:G2VLM 在视觉几何任务上的性能与专业 3D 重建模型(VGGT、π³)竞争,但在部分指标(ETH3D、7-Scenes)上略逊于专用模型——此处数据原文呈现,未作修饰。

表 1b:空间理解与推理任务结果

模型 SPAR-Bench Avg. MindCube Avg. OST-Bench Avg. OmniSpatial Avg.
GPT-4o 38.81 37.58 50.74 59.31
Qwen2-VL-2B(base) 24.60 37.83 26.85 41.18
G2VLM-SR(本文) 54.87 48.33 45.54 49.20

注:在 OST-Bench 和 OmniSpatial 上,GPT-4o 的得分(50.74 / 59.31)高于本文模型(45.54 / 49.20)——原文数据,如实呈现。G2VLM-SR 在 SPAR-Bench 和 MindCube 上以 2B 参数量超越 GPT-4o。

Qualitative Results
图 4(原文 Figure 5):G2VLM 定性结果。模型能够对多种开放域图像进行有效的 3D 重建,涵盖物体级、结构级、室内及室外场景,并支持动态和静态内容。图片来源:原论文 Figure 5。

表 2:消融研究(SPAR-Bench)

模型配置 Low Medium High Avg.
Qwen2-VL-2B base 19.43 27.55 28.22 24.60
G2VLM-SR(Frame-Att.) 58.23 34.47 53.81 52.34
G2VLM-SR(Mixed-Att.) 59.16 35.33 55.16 53.64
G2VLM-SR(Global-Att.) 59.99 36.27 56.51 54.87
Ablation Study
图 5(原文 Figure 6):消融实验结果(双编码器 vs 单编码器 + 注意力机制对比)。左图对比 CLIP+DINO 双编码器与单独使用 CLIP 或 DINO 的效果;右图对比不同注意力机制对几何特征和空间推理的影响。Global Attention 在几何精度与空间推理上均表现最优。图片来源:原论文 Figure 6。

关键消融结论

Loss Comparison
图 6(原文 Figure 4):不同损失策略对比。展示 CE Loss Only、CE + CE Loss 和 VG + CE Loss 三种训练策略在几何任务和推理任务上的表现对比。图片来源:原论文 Figure 4。

04 局限性

说明:论文在结论部分包含一处明确陈述的局限性(标注为"stated");其余各点为基于模型设计与实验结果推断的局限(标注为"inferred")。
大规模模型训练不稳定性(stated)

论文原文明确指出:"One potential limitation is training instability with large-scale models. This challenge requires advanced optimization techniques, careful data curation, and significant computational resources." 当前实验以 Qwen2-VL-2B 为基础,更大规模模型的训练稳定性和计算成本是重要挑战。

部分基准上仍逊于专业模型(inferred)

在视觉几何任务(ETH3D:0.414 vs VGGT 的 0.28;7-Scenes:0.046 vs π³ 的 0.016)上,G2VLM 与专门的 3D 重建模型相比尚有差距。在 OST-Bench(45.54)和 OmniSpatial(49.20)上也低于 GPT-4o(50.74 / 59.31)。这表明统一架构在任务专精性上存在一定取舍。

依赖多视角图像/视频数据进行训练(inferred)

VG + CE Loss 策略(最优方案)需要 3D 标注数据,而此类数据的获取本身存在一定难度。尽管论文指出模型通过多视角图像和视频扩展训练规模以减少对稀缺 3D 数据的依赖,但视觉几何阶段的训练仍依赖大规模 3D 标注数据集。

仅基于 2B 参数规模验证(inferred)

所有实验均基于 Qwen2-VL-2B(2B 参数)进行。大规模模型扩展的有效性、训练稳定性以及性能增益尚未在更大规模参数量(如 7B、72B)上系统验证。