cs.CV · cs.RO · arXiv 2025

几何遇见视觉:重新审视蒸馏辐射场中的预训练语义

Geometry Meets Vision: Revisiting Pretrained Semantics in Distilled Fields
Zhiting Mei*  ·  Ola Shorinwa*  ·  Anirudha Majumdar   (普林斯顿大学 / Princeton University)  * 同等贡献

本文系统研究了几何感知语义特征(visual-geometry features,如 VGGT)与纯视觉语义特征(visual-only features,如 DINOv2/DINOv3)在蒸馏辐射场中的表现差异,针对机器人应用中的三个关键下游任务展开对比分析,并提出了无需初始猜测即可完成辐射场反演的新框架 SPINE

arXiv:2510.03104  ·  2025 年 10 月 Gaussian Splatting · NeRF · 语义蒸馏 📄 arXiv:2510.03104 🌐 项目主页 spine-geo.github.io 💻 代码 github.com/irom-princeton/spine
关键词语义蒸馏辐射场Gaussian SplattingNeRF位姿估计视觉基础模型几何感知特征SPINE辐射场反演机器人场景理解

01 动机

将大型视觉基础模型的语义特征蒸馏到辐射场(NeRF / Gaussian Splatting)中,已成为语言条件机器人操控与导航的重要基础。既有方法主要使用 CLIP、DINOv2 等纯视觉特征,而近期提出的 VGGT(Visual Geometry Grounded Transformer)则通过 3D 重建任务目标训练,获得了几何感知语义特征。直觉上,视觉-几何特征对位姿估计等空间任务应更有优势——但事实真是如此吗?

"Do geometry-grounded semantic features offer an edge in distilled fields? … Surprisingly, we find that the pose estimation accuracy decreases with geometry-grounded features."
论文 teaser 图(Figure 1)
图 1(论文 Figure 1):本文针对蒸馏辐射场中视觉-几何特征(VGGT)与纯视觉特征(DINOv2/DINOv3)的三个核心问题展开研究:① 几何保真度(VGGT 更优)、② 语义目标定位(二者相当)、③ 辐射场反演精度(DINOv2 > DINOv3 > VGGT,VGGT 反而更差)。
9个测试场景,跨 3 个基准数据集
3个核心研究问题,涵盖关键机器人应用
SPINE首个无需初始猜测的语义辐射场反演框架

三个核心问题

Q1:视觉-几何语义特征是否含有更高保真度的空间内容?
VGGT 特征包含更精细的结构细节,例如更清晰的边缘、更准确的子部件分解,但对象级语义的一致性弱于 DINO 系列。
Q2:几何感知是否能提升语义目标定位精度?
在 GS 与 NeRF 上,视觉-几何特征与纯视觉特征的定位精度无显著差异;VGGT 甚至出现轻微性能退化。
Q3:视觉-几何特征能否实现更高精度的辐射场反演?
否(出人意料) DINOv2 在粗位姿估计阶段取得最低旋转误差与平移误差;VGGT 反演精度最差,尽管其几何内容最丰富。

02 方法

本文提出了两个核心贡献:① 将 VGGT 视觉-几何特征蒸馏至辐射场的完整流程,② SPINE——一个利用蒸馏语义实现无初始猜测辐射场反演的新框架,由"语义粗反演 + 光度细化"两阶段组成。

蒸馏架构图(Figure 2)
图 2(论文 Figure 2):(左)语义蒸馏架构,通过共享 hashgrid 编码(Base Semantics 模块)对 CLIP 与 DINO/VGGT 进行联合监督。(右)VGGT 不同头部(Depth Head、Point Head 及中间层 Layer 0/11/23)输出的语义嵌入 PCA 可视化,Point Head 具有最高几何保真度。

视觉-几何特征提取与蒸馏

从 VGGT 的 Depth HeadPoint Head(分别经深度估计和稠密点云重建训练)中提取语义嵌入,嵌入维度 ds = 128。同时训练 VGGT 语义场 fs 与 CLIP 语言场 fl,二者共享相同的 hashgrid 编码(base semantics),使几何与语言特征关联相同的视觉和几何基底。

训练损失同时包含 Frobenius 范数项和余弦相似度项,以保证数值稳定性:
L = Lr + Σ‖If,c − Îf,c‖²F − Σ csim(If,c, Îf,c)

SPINE:语义驱动的辐射场反演

粗反演(Coarse Inversion):训练逆向模型 pψ,将语义嵌入(VGGT 使用 camera embedding,DINO 使用 class token)映射至相机位姿的高斯混合模型(GMM)分布,以 Lie 代数 so(3) 参数化旋转,无需初始位姿猜测。

细反演(Fine Inversion):以粗估计为起点,通过新视角合成生成 RGB-D 图像,匹配特征点并求解 PnP 问题(使用 RANSAC 提升鲁棒性),最终得到高精度位姿估计。

几何保真因子(Geometric Fidelity Factor, GFF)

为定量刻画蒸馏特征的几何内容,作者提出 GFF:先用 Sobel-Feldman 算子对语义图像和 RGB 图像分别提取边缘,再计算语义边缘相对于 RGB 边缘的保留比例:
GFF = Σ Ie,sem[i,j,k] / Σ Ie,rgb[i,j,k]
GFF 越高,表示语义特征中保留的场景几何信息越多。

03 实验

在 9 个场景、3 个数据集(LERF、3D-OVS、机器人数据集)上,分别训练 GS 和 NeRF 表示,对比 DINOv2、DINOv3、VGGT 三种语义特征,每场景计算 100 个相机位姿的指标。训练硬件:Nvidia L40 GPU(48GB VRAM);框架:Nerfstudio,迭代次数 30000。

Q1:语义特征几何内容(GFF)

GFF 对比图(Figure 4)
图 4(论文 Figure 4):不同梯度阈值下的 GFF 对比。GS 中 VGGT 特征在所有阈值下边缘数量最多,DINOv2 最少;DINOv2 和 DINOv3 的 GFF 在不同阈值间几乎恒定,说明其几何内容多样性不足。NeRF 中三者 GFF 差异较小。上方为 Teatime 场景的边缘可视化(阈值 0.1 和 0.3)。

Q2 & Q3:语义定位与辐射场反演

语义定位与辐射场反演结果(Figure 5 & 6)
图 5 & 6(论文 Figure 5 & 6):(上)语义目标定位:DINOv2/DINOv3/VGGT 在 GS 和 NeRF 上的 SSIM、PSNR、LPIPS 三项指标无显著差异,可视化显示三者均能有效定位 cookies、sheep、bear 等目标。(下)辐射场反演:现有基线方法(GS 基线 [3]、iNeRF [31])在无良好初始猜测时表现很差;SPINE(DINOv2 版本)的粗位姿估计已优于基线,细化后进一步提升;VGGT 版 SPINE 的粗/细估计均弱于 DINOv2 版本。

PCA 语义内容可视化

PCA 语义内容可视化(Figure 3)
图 3(论文 Figure 3):Teatime 场景的语义特征 PCA 可视化。上行(GS):DINOv2/DINOv3 特征中 bear 和 sheep 与桌椅区分明显,体现对象级分解;VGGT 则突出场景几何轮廓(边缘清晰)。下行(NeRF):VGGT 更好地保留了杯子和盘子的轮廓,但 DINO 系列对木纹等细节更敏感。

实验结论总结

任务 最优方法 DINOv2 DINOv3 VGGT
几何保真度(GFF,GS) VGGT 最低 中等 最高
语义目标定位(SSIM/PSNR/LPIPS) 三者相当 相当 相当 轻微退化
粗位姿估计(旋转&平移误差) DINOv2 最低误差 中等 最高误差
细化后位姿估计 DINOv2-SPINE 最高成功率 中等 最低成功率
核心结论(论文原文): "visual-only features offer greater versatility for a broader range of downstream tasks, although geometry-grounded features contain more geometric detail." 纯视觉特征(DINOv2)在更广泛的下游任务中展现出更强的通用性,而几何感知特征(VGGT)虽几何细节更丰富,却未能转化为更好的任务性能。

04 局限性与未来工作

说明: 以下局限性均来自论文 Section 9"Limitations and Future Work"的明确陈述(stated)。
全监督几何感知方式限制了特征通用性

论文指出,现有几何感知方案(如 VGGT)采用全监督方法进行空间感知训练,可能引入归纳偏置,削弱特征的通用性,从而导致辐射场反演等任务性能下降。未来工作将探索自监督几何感知方案,以消除归纳偏置、提升适应性并支持更大规模预训练。

几何内容与视觉语义的协同不足

实验发现视觉-几何语义虽含有更丰富的结构内容,却未能提升语义目标定位精度,说明几何内容与视觉语义之间缺乏有效协同。未来工作需设计更有效的策略,将几何导向和视觉导向的语义特征融合,以实现更鲁棒的场景理解。

计算效率低,缺乏轻量化变体

现有几何感知视觉骨干网络(如 VGGT)相较于无感知骨干网络存在显著的计算开销,且目前尚无轻量级变体,难以用于实时机器人应用(如操控任务)。未来工作将探索高效的空间感知视觉骨干架构。

细反演性能依赖粗估计质量

SPINE 的细化阶段成功率直接取决于粗位姿估计的误差大小。由于 VGGT 的粗估计精度较低,其细化阶段的成功率也相应更低。这也说明粗反演模型质量对最终位姿精度至关重要。(stated in Section 7.4