arXiv 2025 · Meta Superintelligence Labs

SAM 3D: 3Dfy Anything in Images

从单张图像重建任意物体的完整 3D 形状、纹理与布局
SAM 3D Team · Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang(核心贡献者)等 · Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik(项目负责人)· Meta Superintelligence Labs

SAM 3D 是一个生成式神经网络,仅从单张自然图像即可预测任意物体的 3D 形状(geometry)、纹理(texture)及在相机坐标系下的位姿(layout)。通过结合人工与模型协作的数据引擎以及 LLM 式多阶段训练流程,SAM 3D 在真实世界遮挡场景中实现了显著突破,人工偏好测试胜率不低于 5:1。

单张图像 → 可组合 3D 场景 1.2B + 600M 参数双阶段模型 SA-3DAO 基准:1,000 个艺术家制作的 3D mesh 📄 arXiv:2511.16624 项目主页 / Project Page 代码 / Code
关键词single-view 3D reconstructionimage-to-3D3D generationflow matching transformer单张图像重建数据引擎多阶段训练DPO偏好对齐3D形状与纹理场景布局估计

01 动机

计算机视觉长期依赖多视角几何来恢复 3D 结构,而人类凭借阴影、纹理乃至"熟悉物体"等图像线索便可从单张图片感知深度与形状。现有单视角重建方法(如 Trellis、HunyuanD3-2.1)在隔离合成对象上表现尚可,但在自然场景中面临严重遮挡与杂乱背景时却力不从心——根本原因在于大规模真实图像配对 3D 数据的匮乏。

"A fundamental challenge for learning such models is the lack of data: specifically, natural images paired with 3D ground truth are difficult to obtain at scale."
SAM 3D 输入与输出示例
图 1:SAM 3D 将单张图像转化为可拆分的 3D 场景。上方:输入自然图像;下方:逐对象恢复的高质量 3D 资产,包含完整几何、纹理与相对相机的布局信息,可从任意视角重新渲染。
5:1真实物体人工偏好胜率(vs. 最佳基线)
6:1场景重建人工偏好胜率(vs. 最佳基线)
1,000SA-3DAO 基准:艺术家手工制作的 3D mesh
~3.14MMITL 数据引擎标注的无纹理 mesh 总量

02 方法

SAM 3D 采用双阶段生成架构:Geometry 模型预测粗粒度形状与布局,Texture & Refinement 模型在此基础上补充几何细节与纹理。整体训练遵循"合成预训练 → 半合成中训练 → 真实世界后训练"的 LLM 式多阶段流程,通过人工与模型协作的数据引擎(MITL)突破 3D 数据瓶颈。

SAM 3D 架构图
图 2:SAM 3D 架构。(上)Geometry 模型以 DINOv2 提取裁剪目标及全图特征,通过 1.2B 参数的 Mixture-of-Transformers (MoT) 流匹配 transformer 联合预测粗形状 O 与布局 (R, t, s);(右)双流信息共享的多模态自注意力机制;(下)Texture & Refinement 模型(600M 参数稀疏 latent flow transformer)在粗体素基础上细化几何并合成纹理。

双流输入编码

使用 DINOv2 对 裁剪目标图(高分辨率局部细节)与完整场景图(全局上下文与识别线索)分别编码,各自搭配对应二值 mask,产生 4 组 conditioning tokens。可选地接入点云图(LiDAR 或单目深度估计),实现与外部流水线的无缝对接。

多阶段训练流程

  • 预训练:在 Iso-3DO(2.7M 合成网格,Objaverse-XL)上训练,共 2.5 万亿 token,建立形状与纹理的基础能力。
  • 中训练:在 RP-3DO(6100 万半合成样本,render-paste 方法)上继续训练 2.7 万亿 token,注入遮挡鲁棒性、mask 跟随与布局估计能力。
  • 后训练 SFT:先在 MITL-3DO 标注数据上微调,再在 Art-3DO(3D 艺术家高质量 mesh)上精调,消除 floater、无底 mesh 等常见缺陷。
  • 偏好对齐 DPO:基于人工偏好数据 D+/D− 进行 Direct Preference Optimization,对齐人类审美偏好(对称性、封闭性等)。
  • 蒸馏:将 Geometry 模型推理所需函数评估次数(NFE)从 25 降至 4,实现亚秒级推理。

MITL 数据引擎(Model-in-the-Loop)

数据引擎将标注任务分解为三个子任务:Stage 1 识别目标对象并获取 mask;Stage 2 由标注员从 N=8 个候选 3D mesh 中选出最优者并评分(低质量样本路由至 3D 艺术家);Stage 3 标注员在点云参考下手动调整物体的平移、旋转与缩放。随着训练迭代,模型自身最终贡献约 80% 的标注数据,形成正向飞轮效应。

SAM 3D 数据引擎流程
图 3 / 图 5(来自论文):数据引擎各阶段示例。绿色轮廓标出目标对象,右下角为对应 GT mesh。数据集按来源分为四个象限:Iso-3DO(合成隔离对象)、RP-3DO(render-paste 半合成)、MITL-3DO(真实图像 MITL 标注)和 Art-3DO(3D 艺术家精标)。

03 实验

评测基准包括:SA-3DAO(1K 艺术家 3D mesh,真实世界场景);ISO3D(来自 3D Arena,无 GT 几何,使用感知相似度指标);Aria Digital Twin (ADT)(布局评测);以及大规模人工偏好测试集(Pref Set,来自 MetaCLIP、SA-1B、LVIS)。对比方法包括 Trellis、HunyuanD3-2.1/2.0、Direct3D-S2、TripoSG、Hi3DGen、MIDI。

3D 形状质量(SA-3DAO 基准,数值越高越好,Chamfer/EMD 越低越好)

方法F1@0.01 ↑vIoU ↑Chamfer ↓EMD ↓
Trellis0.14750.13920.09020.2131
HY3D-2.10.13990.12660.11260.2432
HY3D-2.00.15740.15040.08660.2049
Direct3D-S20.15130.14650.09620.2160
TripoSG0.15330.14450.08440.2057
Hi3DGen0.16290.15310.09370.2134
SAM 3D(本文)0.23440.23110.04000.1211

3D 布局(SA-3DAO & Aria Digital Twin,联合生成)

方法SA-3DAO 3D IoU ↑SA-3DAO ADD-S@0.1 ↑ADT 3D IoU ↑ADT ADD-S@0.1 ↑
SAM 3D + FoundationPose(流水线)0.28370.50790.36610.6495
MIDI(联合生成)0.03360.0175
SAM 3D(联合生成)0.42540.72320.49700.7673
单物体质量对比
图 6:与主流 image-to-3D 方法的定性对比(SA-3DAO 评测集)。从左至右:Trellis、HunyuanD3-2.1、Direct3D-S2、Hi3DGen、SAM 3D(本文),最右为 3D 艺术家 GT mesh。SAM 3D 在严重遮挡与复杂纹理下展现出更强的泛化能力。
场景重建对比与偏好结果
图 7 / 图 8:场景重建定性对比(上),以及对象级与场景级人工偏好测试结果(下)。SAM 3D 在所有维度上显著优于对比方法:场景重建胜率 6:1,物体级胜率 5:1。

消融分析:多阶段训练的累积增益

训练阶段F1@0.01 ↑vIoU ↑Chamfer ↓EMD ↓
预训练(Iso-3DO)0.13490.12020.10360.2396
+ 中训练(RP-3DO)0.17050.16830.07600.1821
+ SFT(MITL-3DO)0.20270.20250.05780.1510
+ DPO(MITL-3DO)0.21560.21560.04980.1367
+ SFT(Art-3DO)0.23310.23370.04450.1257
最终模型(+ DPO Art-3DO)0.23440.23110.04000.1211

消融实验表明,每个训练阶段均带来近单调的 3D 形状改进,充分验证了多阶段训练设计的有效性。数据引擎迭代运行越久,Elo 分数近线性提升(每 3 周一个 checkpoint,Elo 差 400 分对应 10:1 胜率)。

纹理偏好比较
图 9:纹理质量人工偏好对比。固定使用 SAM 3D 输出的几何形状,仅对比各方法生成的纹理。SAM 3D 的纹理质量同样显著优于其他方法。

04 局限性

说明:以下局限性均来自论文附录 F"Limitations"章节,为作者明确陈述(stated)。
分辨率上限导致细节失真

Geometry 模型使用粗形状分辨率 O ∈ ℝ64³,Gaussian splat 解码器最多 32 splats/voxel。对于复杂形状(如人体的手部、面部),整体尺度所能分配的 voxel/splat 数量有限,而人类视觉对此类局部特征极为敏感,因此会出现可感知的形变或细节丢失。论文指出:当单独重建手部或头部时,SAM 3D 表现明显更好。解决方向包括提升输出分辨率、超分辨率模型、基于部件的生成,或切换到隐式 3D 表示。

对象布局的独立预测缺乏物理推理

SAM 3D 一次预测一个对象,未经训练以推理多物体间的物理交互,如接触关系、物理稳定性、穿透检测或共面对齐(同一地平面)。多物体联合预测并加入相应约束损失将是下一步工作。

纹理预测与姿态解耦导致旋转对称歧义

纹理预测在不知晓预测对象姿态的情况下进行。对于具有旋转对称性的物体,模型偶尔会预测出实际上将物体旋转到错误朝向的纹理。