SAM 3: Segment Anything with Concepts

01 动机

SAM 1 和 SAM 2 开创了交互式分割先河，但它们依赖点、框、掩码等几何提示，每次只能分割单个目标实例，无法回答"视频中所有的猫在哪里"这类概念级查询。现实应用（机器人、内容创作、AR、数据标注、科学研究）迫切需要一个能够理解视觉概念、并一次性找出所有匹配实例的模型。

"SAM 1 and SAM 2 focus on visual prompts and segment a single object instance per prompt … they did not address the broader task of finding and segmenting all instances of a concept appearing anywhere in the input."

SAM 3 总览 — 交互分割与概念分割 — **图 1：**SAM 3 在可提示视觉分割（左，鼠标点击）和可提示概念分割（右，短语 / 图像范例 / 组合）两项任务上均超越 SAM 2。右侧示例展示模型同时找出视频中所有匹配给定视觉概念的目标实例。

2×图像 & 视频 PCS 增益（相比现有最优系统）

47.0LVIS zero-shot mask AP（前最优 38.5）

4MSA-Co/HQ 独特概念标签数量

30 ms单图推理延迟（100+ 检测目标，H200）

02 方法

SAM 3 由共享视觉骨干网络 Perception Encoder (PE) 的 检测器（图像级）与 追踪器（内存式视频）构成。检测器基于 DETR 范式，输入文本/图像范例提示后预测所有匹配实例的分割掩码。追踪器继承 SAM 2 的 Transformer 编解码器架构，在视频中传播 masklet（时空掩码）。两者通过四阶段渐进式训练策略联合优化。

**图 3：**SAM 3 架构总览。PE 骨干网络（青色）同时服务检测器与追踪器。检测器（新增组件，黄色高亮）包含 Fusion Encoder、DETR 解码器及 Presence Token；追踪器（蓝色，继承自 SAM 2）维护内存库以在视频帧间传播 masklet。

Presence Token — 解耦识别与定位

传统 DETR 中每个 proposal query 既要识别（what）又要定位（where），两者目标冲突：识别需要全局上下文，而定位本质上是局部的。SAM 3 引入一个可学习的全局 presence token，专门预测目标概念是否出现在图像/帧中（p(NP is present in input)）。每个 proposal query 只需在"概念已出现"的条件下解决定位问题，最终分数 = 自身分数 × presence 分数。消融实验显示该设计将 SA-Co/Gold CGF1 提升 +5.7（从 57.6 到 63.3），image-level MCC 从 0.77 提升至 0.82。

Image Exemplars 与交互式精化

SAM 3 支持图像范例提示（正框 / 负框），可单独使用或与文本提示组合。每个范例由位置嵌入、标签嵌入及 ROI 池化视觉特征拼接后经小型 Transformer 编码，与文本 token 拼接共同构成 prompt tokens。交互式地加入范例后，模型能泛化地检测/抑制相似目标（而不仅修正单个实例），3 次点击后比文字提示提升 +18.6 CGF1，比理想 PVS 修正提升 +9.7。

视频追踪架构

给定视频与提示 P，检测器在每帧上发现新目标 Ot，追踪器将前一时刻的 masklet Mt-1 传播到当前帧得到 M̂t，随后通过基于 IoU 的匹配函数将二者关联并更新。对于遮挡/干扰物等追踪失败场景，SAM 3 引入两项时序消歧策略：masklet detection score（时序窗口内持续匹配得分）和定期用高置信度检测结果重新初始化追踪器内存库。

数据引擎总览 — **图 4：**SA-Co 数据引擎四阶段总览。从媒体输入、NP 生成、候选掩码提议，到掩码验证（MV）与穷举验证（EV），人类与 AI 标注员协同工作。AI 验证器（基于 Llama 3.2 微调）的引入使吞吐量翻倍，最终积累 5.2M 图像、4M 独特 NP 的高质量训练集。

数据引擎（SA-Co Data Engine）

数据引擎分四阶段迭代：

Phase 1（纯人工验证）：随机采样图像，SAM 2 + 开放词汇检测器生成候选掩码，全人工掩码验证（MV）与穷举验证（EV），收集 4.3M 图像-NP 对构成初始 SA-Co/HQ。
Phase 2（人工 + AI 验证）：用 Phase 1 标注微调 Llama 3.2，创建 AI 验证器，吞吐量翻倍；引入 Llama 生成对抗性硬负例 NP；累计新增 122M 图像-NP 对。
Phase 3（规模扩展与领域扩张）：扩展至 15 个数据集领域；利用 22.4M 节点的 SA-Co 本体（基于 Wikidata）挖掘长尾细粒度概念；新增 19.5M 图像-NP 对。
Phase 4（视频标注）：扩展至视频，结合场景/运动过滤、目标密度采样，收集 52.5K 视频、467K masklet（SA-Co/VIDEO）。

最终训练集包括：SA-Co/HQ（5.2M 图像，4M NPs）、SA-Co/SYN（合成数据，38M NPs，1.4B 掩码）、SA-Co/EXT（15 个外部数据集，增强硬负例）和 SA-Co/VIDEO。

03 实验

SAM 3 在图像/视频 PCS（开放词汇实例分割与追踪）、少样本适应（目标检测/计数）以及与 MLLM 结合的复杂语言查询分割等任务上进行全面评估。评测基准涵盖 LVIS、COCO、SA-Co/Gold/Silver/Bronze/Bio、SA-Co/VEval、ODinW13、RF-100VL、ReasonSeg、OmniLabel 等。

图像 PCS（文本提示，零样本）

基准	指标	前最优基线	SAM 3	提升
LVIS（实例分割）	mask AP	38.5 (DINO-X)	47.0	+8.5
SA-Co/Gold（PCS）	CGF1	36.3 (OWLv2*)	65.0	约 2×
SA-Co/Gold（框检测）	CGF1	53.0 (LLMDet-L)	59.3	+6.3
ADE-847（语义分割）	mIoU	29.4 (APE-D*)	53.1	+23.7
Cityscapes（语义分割）	mIoU	44.2 (APE-D*)	59.4	+15.2

注：SA-Co/Gold CGF1 = 65.0 达到人类下限估计（74.2）的 88%。Gemini 2.5（强通用 LLM 基线）CGF1 为 19.8，SAM 3 超出其约 3.3×。

图像 PCS（1 个范例提示，AP+）

数据集	提示类型	T-Rex2（前最优）	SAM 3
COCO	T+I	—	62.5
LVIS	T+I	—	77.0
ODinW35	T+I	—	79.6
COCO（文本 T）	T	52.2	53.5 (+1.3)
ODinW35（文本 T）	T	50.3	59.9 (+9.6)

视频 PCS（文本提示）

数据集	指标	前最优基线	SAM 3
SA-Co/VEval SA-V	pHOTA	49.0 (LLMDet + SAM 3 Tracker)	53.9
SA-Co/VEval YT-Temporal-1B	pHOTA	44.6	69.2
SA-Co/VEval SmartGlasses	pHOTA	57.1 (SAM 3 Det + T-by-D)	62.9
LVVIS（test mAP）	mAP	57.3	56.9
MOSEv2（VOS J&F）	J&F	53.8 (SeC)	60.1 (+6.3)

SA-Co/VEval 上 SAM 3 达到人类 pHOTA 下限的 >80%。GLEE 基线（未在 SA-Co 上训练）CGF1 接近 0，突出了大规模多概念视频分割的难度。

实验结果汇总 — 主要表格 — **图（Table 1 摘录页）：**图像概念分割主要评测结果汇总，含 LVIS 实例分割、SA-Co 各分割、COCO/COCO-O 框检测、ADE-847/PC-59/Cityscapes 语义分割多项指标，与 OWLv2、GroundingDINO、LLMDet、APE、DINO-X、Gemini 2.5 等基线对比。

交互式 PCS（K 次范例提示）

模拟人机协作：从文本提示出发，每轮迭代添加一个正/负范例框。实验显示：

3 次点击后，SAM 3 PCS 相比仅用文本提示提升 +18.6 CGF1；
与"理想 PVS 修正"（逐实例手动修正）相比提升 +9.7；
4 次点击后性能趋于平稳（范例无法修复掩码质量问题），此时切换至 PVS 模式可获得进一步提升，两种方式互补。

目标计数

模型	CountBench Acc↑	PixMo-Count Acc↑
DINO-X	82.9	85.0
Gemini 2.5 Pro	92.4	78.2
Molmo-72B	92.4	88.8
SAM 3	95.6	87.3

SAM 3 Agent（与 MLLM 结合）

SAM 3 可与多种 MLLM（Qwen2.5-VL 7B/72B、Llama4 Maverick、Gemini 2.5 Pro）结合，MLLM 将复杂语言查询分解为 NP 调用 SAM 3，迭代优化输出。零样本情况下在 ReasonSeg 和 OmniLabel 上分别达到 73.8 gIoU 和 46.7 AP，超越所有专用方法（包括 GPT-4o + SegZero 等）。

关键消融

消融项	设置	CGF1	IL MCC	pmF1
Presence Token	无	57.6	0.77	74.7
Presence Token	有	63.3	0.82	77.1
训练数据	仅 EXT	30.9	0.46	66.3
	EXT + SYN	39.7	0.57	70.6
	EXT + SYN + HQ	54.3	0.74	73.5
硬负例（每图 #）	0 个	31.8	0.44	70.2
	5 个	44.8	0.62	71.9
	30 个	49.2	0.68	72.3

消融验证：Presence Token（+5.7 CGF1）、硬负例训练（IL MCC 从 0.44 大幅提升至 0.68）、高质量人工数据 HQ（比纯合成数据 SYN 再提升 +14.6 CGF1）均是关键贡献。

04 局限性

说明：以下局限性均来自论文附录 C"Limitations"章节，为作者明确陈述（stated）。

细粒度领域外概念泛化能力不足

"SAM 3 struggles to generalize to fine-grained out-of-domain concepts (e.g., aircraft types, medical terms) in a zero-shot manner, especially in niche visual domains (e.g., thermal imagery)." 虽然少量微调可快速适应新概念，但零样本表现有限。

文本提示限于简单名词短语（noun phrases）

"SAM 3 is constrained to simple noun phrase prompts and does not support multi-attribute queries beyond one or two attributes or longer phrases including referring expressions." 即不直接支持复杂指代表达。与 MLLM 结合可缓解此问题，但需要外部大模型参与。

视频推理成本随追踪目标数线性增长

"The cost of SAM 3 inference scales linearly with the number of objects being tracked." 实时 30 FPS 需要多卡并行：2×H200 支持约 10 个目标，4×H200 支持约 28 个，8×H200 支持约 64 个。"There is no shared object-level contextual information to aid in resolving ambiguities in multi-object tracking scenarios."

概念级与实例级交互模式切换不连续

"Supporting concept-level interactivity for PCS, alongside instance-level interactivity for PVS, poses several challenges. To support instance-level modifications without affecting all other instances of the concept, we enforce a hard 'mode-switch' within the model from concept to instance mode." 作者指出，未来工作可以更无缝地交织概念提示与实例提示。