arXiv 2605.27372 · cs.CV · 2026

G3T Up! 重力对齐坐标系简化点图处理

Gravity Grounded Geometry Transformer (G3T)
Bharath Raj Nagoor Kani & Noah Snavely · Cornell University · 项目主页:g3t-paper.github.io

现代前馈式三维重建方法(如 VGGT)在相机坐标系中预测像素对齐的点图,但这种坐标系选择并非最优。 G3T 提出在直立的重力对齐坐标系中预测点图,利用真实场景中普遍存在的结构先验, 将跨视角的旋转自由度从 3 DoF 降低至 1 DoF(仅剩 yaw 旋转)。 在此基础上,G3T-Long 通过子图拼接的增量式重建流程,显著减少垂直漂移并提升重建精度。

训练:8×A100,约 1 周 基础模型:VGGT(微调) 评测数据集:7Scenes / NRGBD / ETH3D / TUM RGBD arXiv 论文
关键词gravity-aligned coordinate framepointmap prediction前馈式三维重建VGGT fine-tuningGA-Procrustes alignmentincremental reconstruction重力先验camera pose estimation点图处理自由度简化

01 动机

当前主流的前馈式三维重建模型(DUSt3R、VGGT 等)在相机坐标系中预测点图, 要求 7 自由度(DoF)的刚体变换来对齐不同视角的点图,导致优化困难、累积误差大。 真实场景中"地面是水平的、墙壁是竖直的"这一结构先验几乎无处不在, 却被相机中心坐标系所忽视。

"We propose instead to predict pointmaps in upright, gravity-aligned frames that exploit strong structural cues present in many real-world scenes. Unlike camera-centric frames, gravity-aligned frames share a common vertical axis across viewpoints, reducing the rotational degrees of freedom needed to relate pointmaps to one another."
重力对齐坐标系 vs 相机坐标系示意图
图 1(论文第 2 页): 左:传统的 VGGT 在相机坐标系中预测点图,不同视角的点图需要 7 DoF 变换(3 旋转 + 3 平移 + 1 缩放)才能对齐。 右:G3T 在重力对齐坐标系中预测点图,不同视角共享同一垂直轴,对齐只需 1 DoF 的 yaw 旋转,极大简化了拼接问题。 底部颜色可视化:蓝色 = 直立方向预测良好,橙色 = 偏转较大。
1 DoF重力对齐后的跨视角旋转自由度(原为 3 DoF)
1.05°G3T 在 ETH3D 上的最低旋转误差(8 视角 Local Head)
>10×垂直漂移(δy)相比 VGGT-Long 的最大改善倍数(fr2/ps3)
5 数据集微调所用数据集:MegaDepth / Hypersim / ARKitScenes / DL3DV / TartanAir
G3T 论文首页 Teaser
论文首页 Teaser:G3T 预测直立、重力对齐的点图(绿色/蓝色表示方向正确), 而 VGGT 在相机坐标系中产生倾斜的点图(橙/红色)。 G3T-Long 基于子图拼接的增量式重建,显著改善了长序列重建的精度与垂直一致性。

02 方法

G3T 在 VGGT 的基础上进行微调,核心改动是将点图预测头和相机参数预测头适配到重力对齐坐标系, 并引入 GA-Procrustes(重力感知 Procrustes 对齐)算法约束子图拼接中的旋转方向。

G3T 模型架构图
图 2(论文第 3 页):G3T 模型架构。 左图:相机坐标系(VGGT)与重力对齐坐标系(G3T)的坐标系对比示意。 右图:G3T 在 VGGT 架构上做了两处关键修改: (1) Point Head 改为输出重力对齐点图 𝒳G; (2) 原 Camera Head 被替换为两个新头: Local Camera Head(输出重力到相机的旋转 RG→C 及内参)和 Relative Camera Head(仅输出 1 DoF 的 yaw 旋转及平移 t)。

重力对齐点图预测

传统 VGGT 的点图在相机坐标系 C1 中表示,G3T 改为在重力坐标系 G1(第一帧的重力对齐坐标系)中表示。 重力坐标系保持 y 轴朝上(与重力方向对齐),不同视角的点图可共享同一垂直轴。 Point Head 在训练时监督于由 COLMAP model_orientation_aligner 提取的真实重力方向标注。

对于相机姿态预测:Local Camera Head 预测每帧的 gravity-to-camera 旋转矩阵(将重力坐标系旋转至相机坐标系), 以及相机内参(焦距、主点)。Relative Camera Head 仅预测 1 DoF 的 yaw 角和平移向量, 大幅简化了相对姿态估计问题。

GA-Procrustes:重力感知子图对齐

标准 Procrustes 对齐需要 7 DoF 变换(包含完整的 3D 旋转); 由于所有子图均在重力对齐坐标系中,对齐旋转只需绕 y 轴旋转(即 xz 平面上的 2D 旋转), 从而将对齐问题简化为 5 DoF(1 DoF yaw + 3D 平移 + 1 缩放)。

在 G3T-Long 增量重建流程中:将输入长视频序列分成若干 overlapping chunk(子图), 对每个子图独立运行 G3T 获得点图预测,再用 GA-Procrustes 将相邻子图对齐并融合, 最终输出全局一致的三维重建结果。环路闭合检测通过回环检测模块进一步提升全局一致性。

GA-Procrustes 算法与增量重建流程
图 3(论文第 4 页):GA-Procrustes 算法伪代码(Algorithm 1、2)与增量重建流程。 左侧 Algorithm 1 为标准 Procrustes 对齐,用于 VGGT-Long; 右侧 Algorithm 2(GA-Procrustes)将旋转约束到 y 轴方向,适用于 G3T-Long。 两个算法的差异体现了重力对齐坐标系带来的简化:旋转搜索空间从 SO(3) 降低至 SO(2)。

训练细节

03 实验

实验分两部分:(1) 评估 G3T 的直立预测精度(camera-to-gravity 旋转估计); (2) 评估 G3T-Long 的增量式三维重建质量(姿态误差与结构指标)。 所有测试数据集均为训练时未见过的数据。

表 1:Camera-to-Gravity 旋转估计(Table 1)

在 7Scenes、NRGBD、ETH3D 上测试 1/4/8 视角输入时的旋转误差(Rerr,°)和准确率(Racc@5°)。
与 GeoCalib(后处理重力估计)和 G3T-Procrustes(从点图回归)对比。

数据集方法1V Rerr↓1V Racc@5°↑4V Rerr↓4V Racc@5°↑8V Rerr↓8V Racc@5°↑
7ScenesGeoCalib6.78°74.80%6.60°76.80%6.56°77.60%
G3T-Procrustes2.00°96.40%1.87°97.20%1.88°97.20%
G3T Local Head1.92°96.80%1.78°98.00%1.78°98.40%
NRGBDGeoCalib2.61°89.60%2.28°92.00%2.19°91.60%
G3T-Procrustes1.47°93.60%1.32°95.60%1.26°95.20%
G3T Local Head1.33°94.00%1.21°95.20%1.13°94.00%
ETH3DGeoCalib2.24°97.20%2.22°97.60%2.21°98.00%
G3T-Procrustes1.96°98.00%1.95°95.60%1.85°96.00%
G3T Local Head1.62°98.40%1.11°98.80%1.05°98.80%

结论(Observation 1):"G3T can estimate high-quality camera-to-gravity rotation estimates, reducing mean errors by more than half compared to post-hoc gravity alignment with GeoCalib."

表 2:多视角点图结构质量(Table 2)

对比 VGGT 与 G3T 在三个数据集上的 ACC(精度)↓、COMP(完整度)↓、NC(法向一致性)↑。

数据集模型ACC↓COMP↓NC↑
7ScenesVGGT-P0.0290.0340.796
VGGT-D0.0310.0320.753
G3T-P0.0280.0320.793
G3T-D0.0260.0290.780
NRGBDVGGT-P0.0240.0190.921
VGGT-D0.0220.0180.913
G3T-P0.0260.0210.907
G3T-D0.0260.0210.900
ETH3DVGGT-P0.1910.1910.890
VGGT-D0.2090.1740.880
G3T-P0.1880.1810.892
G3T-D0.1940.1650.882

结论(Observation 2):"Pointmaps predicted by G3T have stronger gravity-alignment while retaining comparable pointmap quality." 结构质量指标与 VGGT 基本持平,说明重力对齐微调未损坏三维重建能力。

定性结果对比:VGGT vs G3T
图 4(论文第 6 页):定性结果对比。 每组左侧为 VGGT 预测的点图(蓝色/绿色渲染,带有明显倾斜), 右侧为 G3T 预测的点图(颜色编码更均匀,整体方向更直立)。 G3T 在各种室内场景(桌子、书架、地板等)均能保持点图直立, 与地面真值(ground truth, GT)更接近。

表 3 & 4:TUM RGBD 增量式三维重建(G3T-Long vs VGGT-Long)

增量重建定量结果表格
论文第 8 页:Tables 3 & 4 详细数值,含 TUM RGBD 10 个序列上的姿态误差(APER、APEt)、 垂直漂移(δy)及结构指标(ACC、COMP、NC)。

以下为 Table 3 关键数据(TUM RGBD 各序列,Absolute Pose Error):

方法指标fr1/deskfr1/roomfr1/plantfr2/psfr2/ps2fr2/ps3
VGGT-LongAPER (°)↓2.314.282.965.9213.8515.23
APEt (m)↓0.0250.1790.0530.4440.5530.947
δy (m)↓0.0050.0290.0180.2240.3580.368
G3T-LongAPER (°)↓1.433.501.433.483.516.38
APEt (m)↓0.0120.1780.0360.2550.2350.220
δy (m)↓0.0080.0330.0160.0320.0320.029

注:fr1/360 序列 G3T-Long 的 APER(19.31°)略高于 VGGT-Long(16.32°),为本文中未击败基线的情形,原文如实呈现。 除此之外,G3T-Long 在 9/10 个序列上均优于 VGGT-Long,特别是垂直漂移 δy 的改善尤为显著 (fr2/ps3:VGGT-Long δy=0.368m vs G3T-Long δy=0.029m,改善约 12×)。

消融分析(Ablation)

04 局限性

说明:以下第 1、2 条为论文中明确陈述的限制(stated by authors);第 3、4 条为从方法设计中推断的限制(inferred from design)。
(stated)场景结构先验不明确时预测退化

"G3T may not produce good upright-aware predictions in scenes with ambiguous structural cues." 例如,在缺少上下文的情况下,近距离拍摄地板或墙壁时, G3T 难以正确估计直立方向,产生倾斜的点图(论文 Figure 5 的失败案例)。

(stated)水平旋转视角导致方向混淆

对于竖向物体(如橱柜)的水平旋转图像,模型可能产生方向错误的点图。 "G3T can struggle to estimate upright pointmaps from close-up images of floors and walls if additional unambiguous context is not present."

(inferred)依赖重力先验,不适用于非重力场景

G3T 的整个设计假设重力是场景中的主要结构先验。 在室外无参考平面场景、航拍图像、或水下/太空环境中,重力对齐假设可能不成立, 此时 G3T 的优势将不适用,可能退化为普通坐标系预测。

(inferred)训练数据需额外重力标注,增加数据准备成本

训练 G3T 需要对所有点图数据集使用 COLMAP 的 model_orientation_aligner 提取重力方向真值, 这对没有预计算 COLMAP 重建的数据集来说增加了数据准备成本, 可能限制训练数据的规模和多样性。

Tables 1 和 2 原文
论文第 7 页:Tables 1 & 2 的完整数据,以及论文对两个主要观察结论的文字阐述。 可见 G3T 在重力旋转估计上全面超越 GeoCalib,而结构质量指标(ACC/COMP/NC)与 VGGT 保持在同等水平。