CVPR 2026 · Highlight · 计算机视觉

Global Structure-from-Motion Meets Feedforward Reconstruction

GlueMap:将经典 SfM 的精度与前馈神经网络的鲁棒性统一于同一流程
Linfei Pan · Johannes Schönberger · Marc Pollefeys  |  ETH Zurich  ·  Meta Reality Labs  ·  Microsoft

GlueMap 系统性地分析了经典 Structure-from-Motion 与前馈式三维重建各自的失败场景, 提出一套结合两类方法优势的混合 pipeline,在 5 个具有代表性的基准测试上均达到 state-of-the-art, 并可扩展到上万张图像的大规模场景。

CVPR 2026 Highlight cs.CV 开源 · COLMAP 生态 📄 arXiv:2605.26103 💻 github.com/colmap/gluemap
Structure-from-Motion 3D重建 feedforward reconstruction view graph bundle adjustment 全局位姿估计 COLMAP 混合方法 point map scalable SfM

01 动机

经典 SfM(以 COLMAP 为代表)在标准重建场景表现优异,但在低纹理、有限重叠度、对称结构等场景下系统性失效。 前馈神经网络方法(如 π³)在这些困难场景中展现出惊人的鲁棒性,却在可扩展性、精度和鲁棒性上远不及经典方法。 本文提出 GlueMap,系统性地整合两类方法的互补优势。

"We systematically analyze these limitations and propose a new Structure-from-Motion pipeline by combining the respective strengths of classical and feedforward methods."
各方法在5个数据集上的综合排名雷达图
图1:5 个数据集上的平均排名雷达图。 每个轴代表一个评测数据集,轴向外表示排名越高(越好)。 经典方法(SIFT、ALIKED+LG)在标准场景好但在困难场景失效; 前馈方法(π³)在对称/低纹理场景强但在精度和大规模场景差; GlueMap(ours)在所有场景上均保持最优或接近最优。
83.6ETH3D AUC@5
(ALIKED+LG: 67.4)
92.4SMERF AUC@20
低重叠室内场景
37.3LaMAR HGE AUC@3
(SIFT: 2.6, π³: OOM)
58.7CO3Dv2 40img AUC@3
(π³: 47.1)

02 方法

GlueMap 将整个 SfM 流程分解为四个阶段:首先构建可靠的视图图, 然后利用前馈网络进行局部推断,再通过全局运动平均整合局部结果, 最后用增强型 Bundle Adjustment 精化位姿与三维结构。

GlueMap 四阶段 pipeline 示意图
图2:GlueMap pipeline 总览。 四个阶段依次为:(1) View Graph Initialization 利用 SALAD 图像检索 + Doppelganger++ 过滤构建视图图; (2) Feedforward Local Inference 以每张图为中心构建局部 star graph,用 π³ 推断局部三维结构; (3) Global Motion Averaging 融合局部重建,经由中位焦距、旋转同步、相似变换平均恢复全局位姿; (4) Augmented Bundle Adjustment 联合 SIFT 匹配、deep tracks 与合成 virtual tracks 精化全局结果。
Step 1

View Graph Initialization

使用 SALAD 进行可扩展图像检索,通过 Doppelganger++ 过滤掉对称结构带来的虚假对, 并用动态阈值保证图的连通性。这一步骤确保视图图既覆盖所有图像,又不受对称陷阱干扰。

Step 2

Feedforward Local Inference

将视图图分解为以每张图为中心的局部 star graph,对每个子图独立调用 π³ 前馈网络获得局部三维重建。 随后通过"在 1 像素半径内 snap 到 SIFT 关键点"将不同子图的轨迹对齐, 并用前向-后向深度一致性检验剔除误匹配。

Step 3

Global Motion Averaging

依次执行三步融合:(a) 内参平均:以中位数焦距作为初始化; (b) 旋转平均(rotation synchronization):最小化测地误差; (c) 相似变换平均(similarity averaging):统一各局部重建的尺度,恢复全局相机中心。

Step 4

Augmented Bundle Adjustment

引入三类 track 同时参与 BA 优化:经典 SIFT 匹配提供高精度约束; π³ 输出的 deep tracks 在困难场景提供额外覆盖; 通过对相邻视图重投影采样像素构造 virtual tracks(虚拟轨迹) 填补稀疏区域的约束空洞。

view graph radius 与重建精度关系分析
图3:View Graph Radius 与重建精度的关系。 "radius"衡量图中任意两张图交换信息所需的最少跳数,反映场景的内在重建难度。 随着 radius 增大,前馈方法性能急剧下降;而 GlueMap 因引入全局优化和多种 track 类型, 对 radius 增大更加鲁棒,且对更高的视图图密度有明显增益。

03 实验

5 个基准数据集(ETH3D、IMC2021、CO3Dv2、SMERF、LaMAR)上与 π³、π³+BA、SIFT、ALIKED+LG 对比, 覆盖高精度室内外、互联网照片、低纹理物体、低重叠室内和大规模场景等多样化挑战。

ETH3D — 高精度室内外场景(AUC,越高越好)

方法AUC@1°AUC@3°AUC@5°
SIFT45.662.266.7
ALIKED+LG42.962.167.4
π³13.236.148.9
π³ + BA30.655.165.1
GlueMap53.076.983.6

SMERF — 低重叠室内多房间场景(AUC@20°,越高越好)

方法Minimal OverlapLow Overlap
SIFT1.81.8
π³51.749.8
GlueMap82.092.4

LaMAR — 大规模室内外场景(6k–9k 张图像,AUC@3°)

场景图像数SIFTπ³GlueMap
CAB6,5870.6OOM4.5
HGE7,5532.6OOM37.3
LIN9,3194.6OOM37.3

OOM = Out of Memory(RTX 4090 24GB 显存耗尽);GlueMap 是唯一能处理大规模场景的方法。

CO3Dv2 — 低纹理物体中心场景(AUC@3°,40 张图像)

方法10 imgs20 imgs40 imgs
SIFT25.835.150.0
π³48.246.447.1
GlueMap54.856.758.7
GlueMap 重建结果(展览大厅)
GlueMap 重建结果(LaMAR Exhibition Hall)— 成功恢复完整点云与位姿。
π³ 重建结果(展览大厅)
π³ 重建结果(同一场景)— 因内存溢出或局部失败导致重建不完整。

消融实验(Augmented BA 组件贡献,ETH3D AUC@1°)

组合ETH3D AUC@1°
Deep Tracks + SIFT + Virtual Tracks(完整)52.6
Deep Tracks + Virtual Tracks(去掉 SIFT)45.4
SIFT + Virtual Tracks(去掉 Deep Tracks)46.6
Deep Tracks + SIFT(去掉 Virtual Tracks)54.8

三类 track 各有贡献,在低重叠场景(SMERF)中 virtual tracks 尤为关键,完整组合在不同场景下取得最佳综合表现。

04 局限性

Note: 以下局限性由作者在论文中明确陈述(stated)。
依赖前馈模型质量,暂不支持鱼眼相机

GlueMap 将 π³ 作为前馈推断骨干,其性能上限受限于 π³ 本身的覆盖范围。 当前实现不支持鱼眼(fisheye)图像,这限制了在自动驾驶和机器人领域的直接应用。

纯旋转运动场景不适用

Augmented Bundle Adjustment 的公式化设计依赖视差信息;对于相机原地旋转(purely rotational motion)的图像序列, 该方法无法正确工作。

并非单一端到端架构,需要多组件协同

GlueMap 本质上是多个模块(SALAD、Doppelganger++、π³、SIFT、global averaging)的工程组合, 而非单一的可端到端训练模型。 随着前馈基础模型(如 MASt3R、π³)持续迭代,组件替换可带来直接性能提升,但也引入了维护成本。