G2VLM：几何感知视觉语言模型，统一 3D 重建与空间推理

01 动机

现有视觉语言模型（VLMs）将图像视为"扁平"的 2D 数据处理，缺乏对三维空间的几何理解能力，导致在需要 3D 空间推理的任务上表现受限。另一方面，专门的视觉几何模型虽能进行精确的 3D 重建，但不具备高层语义理解和自然语言交互能力——两类模型之间存在鸿沟。

"By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing."

G2VLM Teaser — **图 1：G2VLM 综合演示。**模型能够同时处理空间 3D 重建任务（点图估计、相机位姿估计、单目深度估计）和空间理解推理任务。对于空间推理问题，G2VLM 可直接预测 3D 几何并通过交叉推理给出答案。图片来源：原论文 Figure 1。

54.87SPAR-Bench 均值
（本文 G2VLM-SR）

38.81GPT-4o 在 SPAR-Bench
的均值（对比基线）

48.33MindCube 均值
（本文最优）

2B参数量，媲美
更大规模的模型

为何现有方法不足？

空间推理 VLMs：将图像视为纯 2D 输入，缺乏几何归纳偏置，空间推理能力上限受限。
前馈视觉几何模型（如 VGGT、π³）：擅长 3D 重建，但不具备语义理解和自然语言交互能力。
大型专有模型（如 GPT-4o）：虽具备语言能力，但空间推理分数（SPAR-Bench 38.81）远低于本文 2B 参数的专用模型（54.87）。

02 方法

G2VLM 以"两流假说"（two-streams hypothesis）为设计灵感，采用 Mixture-of-Transformer-Experts（MoT） 架构，将专门的几何感知专家（Geometric Perception Expert）与语义感知专家（Semantic Perception Expert）融合在同一 Transformer 主干中，通过共享的多模态自注意力层实现特征交互。

G2VLM Architecture — **图 2：G2VLM 架构图。**模型包含两个专家流：几何感知专家（"where pathway"，蓝色流）负责低层 3D 视觉信息提取；语义感知专家（"what pathway"，橙色流）负责多模态理解。两流在每个 Transformer 块中通过共享的多模态自注意力进行交互。图片来源：原论文 Figure 2。

几何感知专家（Geometric Expert）

以 DINOv2 编码器为骨干，提取低层视觉信息，将图像 token 映射至 LLM hidden states，输出 3D 几何预测（相机位姿 + 点图）。使用全局注意力（Global Attention）机制，实验证明优于帧内注意力（Frame-Att.）和混合注意力（Mixed-Att.）方案。

语义感知专家（Semantic Expert）

基于预训练的 Qwen2-VL-2B 模型构建，保留其强大的多模态语言理解和指令跟随能力。以 CLIP 编码器提取语义特征，与几何专家的 DINO 特征互补——消融实验证明双编码器设计（DINO + CLIP）优于单编码器方案。

G2VLM Unified Design — **图 3：G2VLM 统一模型设计。**模型将几何感知专家（3D 重建）和语义感知专家（多模态理解）集成于同一框架。所有 token 在每个 Transformer 块中均可进行共享多模态自注意力运算。图片来源：原论文 Figure 3。

两阶段训练策略

阶段一 — 视觉几何学习（Visual Geometry Learning）：冻结语义专家，从零开始在大规模 3D 标注数据集上训练几何专家。损失函数包含点图重建损失、相机位姿损失和表面法线损失的加权组合。
阶段二 — 空间推理学习（Spatial Reasoning Learning）：解冻语义专家，与几何专家联合训练。探索三种损失策略：
- CE Loss Only：仅交叉熵，最佳性价比；
- CE + CE Loss：两路交叉熵；
- VG + CE Loss：视觉几何损失 + 交叉熵，综合最优，但需要 3D 标注数据。

03 实验

G2VLM 在两大类任务上进行评测：（1）视觉几何任务（单目深度估计、点图估计、相机位姿估计）；（2）空间理解与推理任务（SPAR-Bench、MindCube、OST-Bench、OmniSpatial）。

表 1a：视觉几何任务结果

模型	Sintel Abs Rel↓	NYU-v2 Abs Rel↓	ETH3D Acc.↓	7-Scenes Acc.↓	Co3Dv2 RRA@30↑
VGGT	0.335	0.056	0.28	0.022	98.96
π³	0.277	0.054	0.194	0.016	99.05
G2VLM（本文）	0.297	0.062	0.414	0.046	97.91

注：G2VLM 在视觉几何任务上的性能与专业 3D 重建模型（VGGT、π³）竞争，但在部分指标（ETH3D、7-Scenes）上略逊于专用模型——此处数据原文呈现，未作修饰。

表 1b：空间理解与推理任务结果

模型	SPAR-Bench Avg.	MindCube Avg.	OST-Bench Avg.	OmniSpatial Avg.
GPT-4o	38.81	37.58	50.74	59.31
Qwen2-VL-2B（base）	24.60	37.83	26.85	41.18
G2VLM-SR（本文）	54.87	48.33	45.54	49.20

注：在 OST-Bench 和 OmniSpatial 上，GPT-4o 的得分（50.74 / 59.31）高于本文模型（45.54 / 49.20）——原文数据，如实呈现。G2VLM-SR 在 SPAR-Bench 和 MindCube 上以 2B 参数量超越 GPT-4o。

Qualitative Results — **图 4（原文 Figure 5）：G2VLM 定性结果。**模型能够对多种开放域图像进行有效的 3D 重建，涵盖物体级、结构级、室内及室外场景，并支持动态和静态内容。图片来源：原论文 Figure 5。

表 2：消融研究（SPAR-Bench）

模型配置	Low	Medium	High	Avg.
Qwen2-VL-2B base	19.43	27.55	28.22	24.60
G2VLM-SR（Frame-Att.）	58.23	34.47	53.81	52.34
G2VLM-SR（Mixed-Att.）	59.16	35.33	55.16	53.64
G2VLM-SR（Global-Att.）	59.99	36.27	56.51	54.87

Ablation Study — **图 5（原文 Figure 6）：消融实验结果（双编码器 vs 单编码器 + 注意力机制对比）。**左图对比 CLIP+DINO 双编码器与单独使用 CLIP 或 DINO 的效果；右图对比不同注意力机制对几何特征和空间推理的影响。Global Attention 在几何精度与空间推理上均表现最优。图片来源：原论文 Figure 6。

关键消融结论

双编码器优于单编码器：DINO（几何） + CLIP（语义）的组合显著优于仅使用其中一种编码器。
全局注意力（Global Attention）最优：相比帧内注意力（Frame-Att.）和混合注意力（Mixed-Att.），全局注意力在 SPAR-Bench 上实现最高均值（54.87 vs 52.34 / 53.64）。
几何与语义正向协同：实验确认改善的几何特征能够提升空间推理性能，验证了统一架构设计的合理性。
VG + CE 损失综合最优：联合视觉几何损失和交叉熵损失的训练策略在两类任务上均取得最强结果。

Loss Comparison — **图 6（原文 Figure 4）：不同损失策略对比。**展示 CE Loss Only、CE + CE Loss 和 VG + CE Loss 三种训练策略在几何任务和推理任务上的表现对比。图片来源：原论文 Figure 4。

04 局限性

说明：论文在结论部分包含一处明确陈述的局限性（标注为"stated"）；其余各点为基于模型设计与实验结果推断的局限（标注为"inferred"）。

大规模模型训练不稳定性（stated）

论文原文明确指出："One potential limitation is training instability with large-scale models. This challenge requires advanced optimization techniques, careful data curation, and significant computational resources." 当前实验以 Qwen2-VL-2B 为基础，更大规模模型的训练稳定性和计算成本是重要挑战。

部分基准上仍逊于专业模型（inferred）

在视觉几何任务（ETH3D：0.414 vs VGGT 的 0.28；7-Scenes：0.046 vs π³ 的 0.016）上，G2VLM 与专门的 3D 重建模型相比尚有差距。在 OST-Bench（45.54）和 OmniSpatial（49.20）上也低于 GPT-4o（50.74 / 59.31）。这表明统一架构在任务专精性上存在一定取舍。

依赖多视角图像/视频数据进行训练（inferred）

VG + CE Loss 策略（最优方案）需要 3D 标注数据，而此类数据的获取本身存在一定难度。尽管论文指出模型通过多视角图像和视频扩展训练规模以减少对稀缺 3D 数据的依赖，但视觉几何阶段的训练仍依赖大规模 3D 标注数据集。

仅基于 2B 参数规模验证（inferred）

所有实验均基于 Qwen2-VL-2B（2B 参数）进行。大规模模型扩展的有效性、训练稳定性以及性能增益尚未在更大规模参数量（如 7B、72B）上系统验证。