NeurIPS 2025 · 人体重建

SyncHuman: 同步 2D 与 3D 生成模型的单视图人体重建

Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
Wenyue Chen · Peng Li · Wangguandong Zheng · Chengfeng Zhao · Mengfei Li · Yaolong Zhu · Zhiyang Dou · Ronggang Wang · Yuan Liu

SyncHuman 将多视图 2D 生成模型与 3D 原生生成模型联合训练,通过像素对齐的双向同步注意力机制,使二者在扩散过程中互相校正,从单张图像重建出几何精确、纹理丰富的着装人体三维模型。

NeurIPS 2025 单视图人体重建 2D-3D 联合生成 📄 arXiv: 2510.07723 PDF 全文
关键词单视图人体重建3D human reconstruction2D-3D联合生成扩散模型同步多视图一致性Flow MatchingFlexiCubesDINOv2特征着装人体cross-space synchronization attention

01 动机

从单张图像重建穿衣人体的三维模型,是计算机视觉中的核心难题。现有方法面临两难困境:多视图 2D 生成模型(如 PSHuman)能捕捉精细纹理细节,但生成的多视图图像与三维结构缺乏一致性;而 3D 原生生成模型(如 Trellis)能生成连贯的几何形状,却缺乏精细细节,且严重依赖不准确的 SMPL 姿态估计。

"我们提出了一种新型框架,联合利用多视图和 3D 原生生成模型的优势,同时克服各自的局限性。"
SyncHuman Teaser — 与基线方法几何质量对比
图 1:SyncHuman 与基线方法的几何质量对比。左起依次为 SMPL 拟合结果、PSHuman(多视图 2D 方法)、Trellis(3D 原生方法)以及本文方法 SyncHuman。可见 SyncHuman 在几何精度和纹理细节上均显著优于两类基线,且不依赖 SMPL 姿态先验。
0.8353Chamfer Distance ↓
(X-Humans,越低越好)
21.84PSNR ↑
(X-Humans,越高越好)
0.8741SSIM ↑
(X-Humans)
0.0786LPIPS ↓
(X-Humans,越低越好)

多视图 2D 方法的问题

  • 多视图图像间三维结构不一致
  • 从不一致视图重建导致几何误差累积
  • 依赖扩散模型的随机性,无法保证跨视图一致性

3D 原生方法的问题

  • 严重依赖 SMPL 姿态估计,误差传播明显
  • 生成形状细节粗糙,纹理质量差
  • 复杂服装结构难以保真重建

02 方法

SyncHuman 由两个核心模块构成:2D-3D 跨空间生成模型(通过双向同步注意力联合微调多视图与 3D 生成器)和多视图引导解码器(MVGD)(将 DINOv2 特征从生成的多视图图像注入 3D 解码过程),二者共同实现从单张图像到高保真三维人体的重建。

SyncHuman 整体框架
图 2:SyncHuman 整体框架。输入单张图像,首先通过 2D-3D 跨空间生成模型联合生成多视图图像和 3D 表示;随后,多视图引导解码器(MVGD)提取 DINOv2 视觉特征,通过特征注入机制增强三维几何细节与纹理质量,最终输出高保真着装人体网格。

核心组件一:2D-3D 跨空间同步注意力

在扩散去噪过程中,本文设计了双向的像素对齐同步注意力,使 2D 多视图分支与 3D 体素分支在每个时间步互相感知:

训练采用结合 2D 和 3D 分支的 Flow Matching 损失。整体框架无需 SMPL 作为条件,仅以输入图像的 DINOv2 特征为条件进行生成。

双向同步注意力机制示意图
图 3:像素对齐双向同步注意力机制。左:2D→3D 注意力,3D 体素查询对应视图的 2D 特征;右:3D→2D 注意力,2D 像素查询沿投影光线的 3D 体素特征。双向交互使两个分支在扩散过程中实时对齐,确保多视图图像与三维形状的一致性。

核心组件二:多视图引导解码器(MVGD)

在生成阶段结束后,MVGD 从生成的多视图彩色图和法线图中提取 DINOv2 特征,通过拼接(concatenation)和 MLP 层注入 FlexiCubes 解码器,将精细的视觉细节从 2D 图像域提升到三维几何域,显著提升表面法线一致性和纹理保真度。

训练设置

  • 训练数据集:THuman2.1、CustomHumans、THuman3.0、2K2K(约 5,000 人体扫描)
  • 2D-3D 模型:8× H800 GPU,batch=32,共 50,000 次迭代
  • 解码器:1× H800 GPU,batch=4,共 14,000 次迭代
  • 多视图分支:微调自 SD 2.1,batch=32,共 30,000 次迭代

推理速度

  • SyncHuman:38.57 秒
  • PSHuman:52.98 秒
  • Trellis:15.68 秒
  • 在单张 H800 GPU 上测量;SyncHuman 比 PSHuman 快约 27%,但比 Trellis 慢约 2.5×。

03 实验

在 CAPE-NFP、CAPE-FP 和 X-Humans 三个测试集上(共 250 个扫描样本)评估几何精度(Chamfer Distance、P2S、Normal Consistency)和渲染质量(PSNR、SSIM、LPIPS)指标,与 ICON、ECON、GTA、SIFU、SiTH、Human3Diff、PSHuman、Trellis 等基线比较。

Table 1:定量对比结果(X-Humans 测试集)

方法 Cham. Dist ↓ P2S ↓ NC ↑ PSNR ↑ SSIM ↑ LPIPS ↓
ICON1.49711.39200.8133
ECON1.64251.43980.8054
GTA1.50501.46620.804420.00840.85020.1129
SIFU1.53911.43310.809320.67470.84550.1104
SiTH1.51041.43450.797219.82450.82040.1182
Human3Diff1.50341.42190.746819.71810.80650.1334
PSHuman1.43771.13850.839320.84050.85230.0980
Trellis2.00431.50530.771817.07860.72380.1529
SyncHuman(Ours) 0.8353 0.7593 0.8872 21.8385 0.8741 0.0786
几何质量定性对比
图 4:几何质量定性对比。SyncHuman 重建的人体网格在服装细节(褶皱、领口、袖口)和整体形状准确性上均优于 PSHuman 和 Trellis,特别是在复杂姿态下表现尤为突出。
外观质量定性对比
图 5:外观(纹理)质量定性对比。SyncHuman 生成的渲染图像在色彩保真度、纹理清晰度方面均超越基线方法,LPIPS 指标提升最为明显(0.0786 vs PSHuman 0.0980)。

消融实验

Table 2 验证了 2D-3D 跨空间同步模型的有效性:单独使用 Trellis(PSNR 17.079)或 PSHuman(PSNR 20.840),加入双向同步注意力后提升至 PSNR 21.838,Chamfer Distance 从 1.438 降至 0.835。Table 3 验证 MVGD 的贡献:相比原始解码器(微调后 PSNR 21.362),MVGD 将 PSNR 进一步提升至 21.838,并将 Chamfer Distance 从 0.887 降至 0.835。

消融配置PSNR ↑SSIM ↑LPIPS ↓Cham. ↓P2S ↓
Trellis(原始)17.0790.7240.1532.0041.505
Trellis(微调)20.3440.8440.1011.1351.041
PSHuman20.8400.8520.0981.4381.138
原始解码器(微调)21.3620.8660.0900.8870.810
完整 SyncHuman 21.838 0.874 0.079 0.835 0.759

04 局限性

说明:前两条局限性为论文 Limitations 章节的明确陈述(stated);后两条为根据方法设计推断(inferred)
极端光照条件下的伪影
图 6(局限性示例):训练数据使用均匀光照渲染,导致在极端光照条件下重建纹理出现伪影。
光照偏差(stated):训练数据均匀光照导致极端光照下出现伪影

论文明确指出:"由于训练数据集使用均匀光照渲染,重建纹理在极端光照条件下可能出现伪影。"该问题源于训练集(THuman2.1 等)的渲染设置,导致模型对非均匀光照场景泛化能力有限。

训练数据规模有限(stated):约 5,000 人体扫描,限制生成质量

论文明确指出:"多视图生成模型仅从约 5,000 个人体扫描中微调自 SD 2.1,因此生成质量仍受到限制。"与通用扩散模型的数十亿图像训练相比,人体领域特定数据的稀缺制约了模型的泛化上限。

网格表面孔洞(inferred):FlexiCubes 无水密约束导致网格不完整

方法使用 FlexiCubes 进行网格提取,该方法不强制水密(watertight)约束,可能导致生成网格出现表面孔洞,影响下游应用(如物理模拟、3D 打印)的适用性。

推理速度劣于纯 3D 方法(inferred):38.57 秒 vs Trellis 15.68 秒

由于需要同时运行 2D 多视图分支和 3D 体素分支,并加入双向注意力交互,SyncHuman 的推理时间(38.57 秒/张)约为 Trellis(15.68 秒/张)的 2.5 倍,在实时或高吞吐量场景下存在明显瓶颈。