INSID3: Training-Free In-Context Segmentation with DINOv3

01 动机（Motivation）

In-context segmentation（ICS）旨在给定一个或几个标注示例，分割任意概念——无论是 object、part 还是个性化实例。现有方案存在两条路线的固有局限：(1) fine-tuning 路线提升了域内精度，但损害了泛化能力；(2) 多模型组合路线保留了泛化性，但引入了架构复杂度，且 SAM 的分割粒度固定，无法灵活覆盖 semantic / part / personalized 三个层次。

"Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models?"

作者发现，大规模自监督预训练的 DINOv3 密集特征同时具备强语义对应能力和空间连贯结构，但其中混杂了显著的 positional bias——特征相似性会被图像内的相对空间位置所污染，必须加以去除才能获得可靠的跨图像匹配。

INSID3 teaser — results overview — **Figure 1.** INSID3 综合结果与概览：直接从冻结 DINOv3 特征完成 in-context segmentation，无需任何解码器、fine-tuning 或辅助模型。图中雷达图展示了与训练型方法（橙色）和 training-free 方法（蓝色）的对比，INSID3（绿色）在九个 benchmark 上全面领先。

+7.5%mIoU 平均提升，相较最强 training-free 基线 GF-SAM

3×参数量更少（304 M vs 945 M），无需 SAM

9个 benchmark 覆盖语义、part、个性化分割

0额外监督：无 mask 标注、无类别标签、无 fine-tuning

02 方法（Method）

INSID3 流程共四步：① Positional Debiasing（去除位置偏差），② Fine-grained Clustering（聚类分解目标图像为连贯区域），③ Seed-cluster Selection（通过 backward correspondence 筛选候选簇，再用 cross-image similarity 定位种子簇），④ Cluster Aggregation（结合 cross-similarity 与 self-similarity 生成最终 mask）。

INSID3 architecture overview — **Figure 3.** INSID3 方法概览。参考图与目标图的 DINOv3 特征首先经过 positional debiasing，再对目标图做 agglomerative clustering 得到结构化分解；通过 backward correspondence 保留候选簇，再由参考区域原型定位 seed cluster；最终融合 cross-image similarity 与 self-similarity 扩展 seed cluster 得到预测 mask。

① Positional Debiasing（位置偏差去除）

DINOv3 特征存在显著的 positional bias：即便使用均匀低复杂度图像（"noise images"），提取的特征仍保留明显的空间结构，使得跨图像的相似度图被位置信息污染。INSID3 在噪声图像上提取特征矩阵 F^noise ∈ ℝ^P×D，对其做 PCA 取前 s 个主成分构成位置子空间 B，随后将参考图和目标图特征投影到该子空间的正交补空间： F̃ = F(1_D − BB^⊤)，从而在不需要任何训练的情况下有效解耦语义信息与位置信息。

Region-level grouping from DINOv3 — **Figure 2.** DINOv3 密集特征的区域级分组。每对图像展示原图（左）与对 DINOv3 特征做 agglomerative clustering 后的聚类图（右）——自然形成语义连贯的区域分解，为后续 in-context segmentation 提供结构化表示。

② Fine-grained Clustering（细粒度聚类）

对去偏后的目标图特征 F̃^t 做 agglomerative clustering，聚类粒度由阈值 τ 控制（论文设置 τ = 0.6）。聚类结果将目标图分解为一组空间连贯的候选区域 {G_k}，其空间结构对 part 和个性化分割尤为关键。

③ Seed-cluster Selection（种子簇选择）

先以 backward correspondence 在去偏空间中筛选候选簇 C_cand（即参考区域中有足够多 patch 将其最近邻落在该簇内的候选集合）；再计算各候选簇原型 p̃_k^t 与参考区域原型 p̃^r 的 cross-image similarity score：s_k^cross = ⟨p̃_k^t, p̃^r⟩，取得分最高的簇作为 seed cluster G*。

④ Cluster Aggregation（簇聚合）

以 seed cluster 为锚点，将其余候选簇中语义相近的区域融入最终预测。融合 cross-image similarity（语义对齐）与 self-similarity（与 seed cluster 的内部亲和度）两项得分，阈值 α = 0.2 控制合并力度；最终 mask 经 CRF refinement 提升边界精度。

03 实验（Experiments）

在三类 one-shot 分割任务上评估：语义分割（COCO-20ⁱ、LVIS-92ⁱ、ISIC、SUIM、iSAID、Chest X-Ray）、part 分割（PASCAL-Part、PACO-Part）、个性化分割（PerMIS）。指标均为 mIoU（%，↑）。

主要结果（Table 1）

方法	Encoder	#Param	LVIS-92ⁱ	COCO-20ⁱ	ISIC	SUIM	iSAID	X-Ray	PASCAL	PACO	PerMIS	Avg
Task-specific fine-tuning: Semantic + mask supervision
SegGPT	ViT	354 M	18.6	56.1	37.5	34.9	30.9	87.5	35.8	13.5	18.7	37.1
DiffewS	Stable Diffusion	890 M	31.4	71.3	27.8	48.9	47.5	41.6	34.0	22.8	35.2	40.1
SegIC	DINOv2	310 M	44.6	76.1	25.3	52.5	46.1	34.5	39.9	25.9	51.8	44.1
Training-free: Mask-supervised pre-training
Matcher	DINOv2 + SAM	945 M	33.0	52.7	38.6	44.1	33.3	70.8	42.9	34.7	63.8	46.0
GF-SAM	DINOv2 + SAM	945 M	35.2	58.7	48.7	53.1	47.1	51.0	44.5	36.3	54.1	47.6
GF-SAM + our debias	DINOv3 + SAM	945 M	34.6	55.9	51.8	52.9	47.6	60.0	46.2	36.1	54.5	48.8
Training-free: Unsupervised pre-training
INSID3 (ours)	DINOv3	304 M	41.8	57.6	54.4	54.9	52.1	78.8	50.5	38.7	67.0	55.1

INSID3 在九个 benchmark 的平均 mIoU 为 55.1%，相较最强 training-free 基线 GF-SAM 提升 +7.5%，同时参数量仅为其 1/3（304 M vs 945 M），且完全不依赖 mask 级别的预训练监督。

Qualitative comparison of INSID3 with GF-SAM and SegIC — **Figure 5.** INSID3 与 GF-SAM、SegIC 在 one-shot 语义（左）、part（右上）、个性化（右下）分割上的定性对比。SegIC 在域内表现较好，但跨域及 part 粒度泛化能力弱；GF-SAM 依赖 SAM 的强分割先验，但在 part 细粒度任务上受限；INSID3 跨任务、跨域均表现稳健。

Positional Bias 分析（Table 2）

在语义对应任务 SPair-71k 上，INSID3 的 debiasing 策略对 DINOv3 特征的 PCK@Tτ 有稳定提升。实验表明，DINOv3 比 DINOv2 的 positional bias 更明显（特征更强，位置结构也更突出），但经过 debiasing 后 DINOv3 的语义对应质量显著超越 DINOv2。

Radar chart — INSID3 benchmark results — **补充图.** 雷达图形式展示 INSID3 与各基线在九个 benchmark 上的 mIoU 对比，覆盖 PASCAL-Part、LVIS-92ⁱ、PerMIS、COCO-20ⁱ、PACO-Part、Chest X-Ray、iSAID、ISIC、SUIM。INSID3（绿线）在所有轴上均表现突出。

消融实验（Ablation）

论文在 COCO-20ⁱ 和 PASCAL-Part 上验证了各模块的贡献：去除 positional debiasing 会导致语义对应精度显著下降；去除 clustering 或 aggregation 均会降低 mIoU；debiasing rank s 和聚类粒度 τ 均有最优区间（分别约 s=16、τ=0.6），对超参数变化具有一定鲁棒性。此外，论文对比了多种 debiasing 替代策略（DINOv2 vs DINOv3 中的位置偏差程度、不同投影方式），验证了基于噪声图像 PCA 的方案最为简洁有效。

04 局限性（Limitations）

注：本文未设置单独的 Limitations 章节。以下条目部分来自 Conclusion 的隐含表述，部分为从方法设计中推断（已标注）。

依赖 DINOv3 的特征质量（stated: 隐含）

INSID3 完全依赖单一 DINOv3 backbone 的特征，其性能上限受限于该 backbone 的表征能力。若 DINOv3 特征在某类图像上匹配能力不足（如高度抽象的艺术图像），方法可能失效。

推理速度（inferred: 从设计推断）

方法在目标图像上做 agglomerative clustering 并通过 CRF refinement 后处理，这两步在大分辨率图像上具有较高计算开销，实时推理可能受限。论文中未提供具体推理速度数据。

固定超参数的泛化性（inferred: 从实验设计推断）

聚类粒度 τ 和 aggregation 阈值 α 在所有 benchmark 上均使用相同设置（τ=0.6、α=0.2），尽管消融实验表明对超参数有一定鲁棒性，但极端场景（如医学图像 vs 遥感图像）可能仍需调整。

仅限单 backbone、无组合灵活性（inferred: 从方法简洁性推断）

极简主义设计的代价是在依赖 SAM mask 质量的场景（如细密纹理分割）中，相较 GF-SAM 等利用 SAM 强分割先验的方法仍有差距（见 Table 1 部分 benchmark）。