CVPR 2026 Oral · 计算机视觉 · Computer Vision

INSID3: Training-Free In-Context Segmentation with DINOv3

无需训练、无需辅助模型,仅凭单个冻结 DINOv3 backbone 实现多粒度上下文分割
Claudia Cuttano*, Gabriele Trivigno*, Christoph Reich, Daniel Cremers, Carlo Masone, Stefan Roth  ·  Politecnico di Torino / TU Darmstadt / TU Munich / hessian.AI / ELIZA / MCML

INSID3 提出了一种极简主义的 in-context segmentation(ICS)框架:给定一个标注好的参考示例,模型仅依靠冻结的 DINOv3 特征,在无需任何 fine-tuning、分割解码器或辅助模型的情况下,对目标图像中的语义类别、object part 或个性化实例完成分割,并在多个 benchmark 上全面超越此前方法。

One-shot Segmentation Training-Free DINOv3 · ViT-L · 304 M 参数 📄 arXiv:2603.28480 Project Page
in-context segmentation training-free DINOv3 positional debiasing agglomerative clustering one-shot 分割 跨域泛化 自监督表征 视觉基础模型

01 动机(Motivation)

In-context segmentation(ICS)旨在给定一个或几个标注示例,分割任意概念——无论是 object、part 还是个性化实例。现有方案存在两条路线的固有局限:(1) fine-tuning 路线提升了域内精度,但损害了泛化能力;(2) 多模型组合路线保留了泛化性,但引入了架构复杂度,且 SAM 的分割粒度固定,无法灵活覆盖 semantic / part / personalized 三个层次。

"Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models?"

作者发现,大规模自监督预训练的 DINOv3 密集特征同时具备强语义对应能力和空间连贯结构,但其中混杂了显著的 positional bias——特征相似性会被图像内的相对空间位置所污染,必须加以去除才能获得可靠的跨图像匹配。

INSID3 teaser — results overview
Figure 1. INSID3 综合结果与概览:直接从冻结 DINOv3 特征完成 in-context segmentation,无需任何解码器、fine-tuning 或辅助模型。图中雷达图展示了与训练型方法(橙色)和 training-free 方法(蓝色)的对比,INSID3(绿色)在九个 benchmark 上全面领先。
+7.5%mIoU 平均提升,相较最强 training-free 基线 GF-SAM
参数量更少(304 M vs 945 M),无需 SAM
9个 benchmark 覆盖语义、part、个性化分割
0额外监督:无 mask 标注、无类别标签、无 fine-tuning

02 方法(Method)

INSID3 流程共四步:① Positional Debiasing(去除位置偏差),② Fine-grained Clustering(聚类分解目标图像为连贯区域),③ Seed-cluster Selection(通过 backward correspondence 筛选候选簇,再用 cross-image similarity 定位种子簇),④ Cluster Aggregation(结合 cross-similarity 与 self-similarity 生成最终 mask)。

INSID3 architecture overview
Figure 3. INSID3 方法概览。参考图与目标图的 DINOv3 特征首先经过 positional debiasing,再对目标图做 agglomerative clustering 得到结构化分解;通过 backward correspondence 保留候选簇,再由参考区域原型定位 seed cluster;最终融合 cross-image similarity 与 self-similarity 扩展 seed cluster 得到预测 mask。

① Positional Debiasing(位置偏差去除)

DINOv3 特征存在显著的 positional bias:即便使用均匀低复杂度图像("noise images"),提取的特征仍保留明显的空间结构,使得跨图像的相似度图被位置信息污染。INSID3 在噪声图像上提取特征矩阵 Fnoise ∈ ℝP×D,对其做 PCA 取前 s 个主成分构成位置子空间 B,随后将参考图和目标图特征投影到该子空间的正交补空间: F̃ = F(1D − BB),从而在不需要任何训练的情况下有效解耦语义信息与位置信息。

Region-level grouping from DINOv3
Figure 2. DINOv3 密集特征的区域级分组。每对图像展示原图(左)与对 DINOv3 特征做 agglomerative clustering 后的聚类图(右)——自然形成语义连贯的区域分解,为后续 in-context segmentation 提供结构化表示。

② Fine-grained Clustering(细粒度聚类)

对去偏后的目标图特征 F̃t 做 agglomerative clustering,聚类粒度由阈值 τ 控制(论文设置 τ = 0.6)。聚类结果将目标图分解为一组空间连贯的候选区域 {Gk},其空间结构对 part 和个性化分割尤为关键。

③ Seed-cluster Selection(种子簇选择)

先以 backward correspondence 在去偏空间中筛选候选簇 Ccand(即参考区域中有足够多 patch 将其最近邻落在该簇内的候选集合);再计算各候选簇原型 p̃kt 与参考区域原型 p̃r 的 cross-image similarity score:skcross = ⟨p̃kt, p̃r,取得分最高的簇作为 seed cluster G*。

④ Cluster Aggregation(簇聚合)

以 seed cluster 为锚点,将其余候选簇中语义相近的区域融入最终预测。融合 cross-image similarity(语义对齐)与 self-similarity(与 seed cluster 的内部亲和度)两项得分,阈值 α = 0.2 控制合并力度;最终 mask 经 CRF refinement 提升边界精度。

03 实验(Experiments)

在三类 one-shot 分割任务上评估:语义分割(COCO-20i、LVIS-92i、ISIC、SUIM、iSAID、Chest X-Ray)、part 分割(PASCAL-Part、PACO-Part)、个性化分割(PerMIS)。指标均为 mIoU(%,↑)。

主要结果(Table 1)

方法Encoder#Param LVIS-92iCOCO-20iISICSUIMiSAIDX-RayPASCALPACOPerMISAvg
Task-specific fine-tuning: Semantic + mask supervision
SegGPTViT354 M 18.656.137.534.930.987.535.813.518.737.1
DiffewSStable Diffusion890 M 31.471.327.848.947.541.634.022.835.240.1
SegICDINOv2310 M 44.676.125.352.546.134.539.925.951.844.1
Training-free: Mask-supervised pre-training
MatcherDINOv2 + SAM945 M 33.052.738.644.133.370.842.934.763.846.0
GF-SAMDINOv2 + SAM945 M 35.258.748.753.147.151.044.536.354.147.6
GF-SAM + our debiasDINOv3 + SAM945 M 34.655.951.852.947.660.046.236.154.548.8
Training-free: Unsupervised pre-training
INSID3 (ours)DINOv3304 M 41.857.654.454.952.178.850.538.767.055.1

INSID3 在九个 benchmark 的平均 mIoU 为 55.1%,相较最强 training-free 基线 GF-SAM 提升 +7.5%,同时参数量仅为其 1/3(304 M vs 945 M),且完全不依赖 mask 级别的预训练监督。

Qualitative comparison of INSID3 with GF-SAM and SegIC
Figure 5. INSID3 与 GF-SAM、SegIC 在 one-shot 语义(左)、part(右上)、个性化(右下)分割上的定性对比。SegIC 在域内表现较好,但跨域及 part 粒度泛化能力弱;GF-SAM 依赖 SAM 的强分割先验,但在 part 细粒度任务上受限;INSID3 跨任务、跨域均表现稳健。

Positional Bias 分析(Table 2)

在语义对应任务 SPair-71k 上,INSID3 的 debiasing 策略对 DINOv3 特征的 PCK@Tτ 有稳定提升。实验表明,DINOv3 比 DINOv2 的 positional bias 更明显(特征更强,位置结构也更突出),但经过 debiasing 后 DINOv3 的语义对应质量显著超越 DINOv2。

Radar chart — INSID3 benchmark results
补充图. 雷达图形式展示 INSID3 与各基线在九个 benchmark 上的 mIoU 对比,覆盖 PASCAL-Part、LVIS-92i、PerMIS、COCO-20i、PACO-Part、Chest X-Ray、iSAID、ISIC、SUIM。INSID3(绿线)在所有轴上均表现突出。

消融实验(Ablation)

论文在 COCO-20i 和 PASCAL-Part 上验证了各模块的贡献:去除 positional debiasing 会导致语义对应精度显著下降;去除 clustering 或 aggregation 均会降低 mIoU;debiasing rank s 和聚类粒度 τ 均有最优区间(分别约 s=16、τ=0.6),对超参数变化具有一定鲁棒性。此外,论文对比了多种 debiasing 替代策略(DINOv2 vs DINOv3 中的位置偏差程度、不同投影方式),验证了基于噪声图像 PCA 的方案最为简洁有效。

04 局限性(Limitations)

注: 本文未设置单独的 Limitations 章节。以下条目部分来自 Conclusion 的隐含表述,部分为从方法设计中推断(已标注)。
依赖 DINOv3 的特征质量(stated: 隐含)

INSID3 完全依赖单一 DINOv3 backbone 的特征,其性能上限受限于该 backbone 的表征能力。若 DINOv3 特征在某类图像上匹配能力不足(如高度抽象的艺术图像),方法可能失效。

推理速度(inferred: 从设计推断)

方法在目标图像上做 agglomerative clustering 并通过 CRF refinement 后处理,这两步在大分辨率图像上具有较高计算开销,实时推理可能受限。论文中未提供具体推理速度数据。

固定超参数的泛化性(inferred: 从实验设计推断)

聚类粒度 τ 和 aggregation 阈值 α 在所有 benchmark 上均使用相同设置(τ=0.6、α=0.2),尽管消融实验表明对超参数有一定鲁棒性,但极端场景(如医学图像 vs 遥感图像)可能仍需调整。

仅限单 backbone、无组合灵活性(inferred: 从方法简洁性推断)

极简主义设计的代价是在依赖 SAM mask 质量的场景(如细密纹理分割)中,相较 GF-SAM 等利用 SAM 强分割先验的方法仍有差距(见 Table 1 部分 benchmark)。