SyncHuman: 同步 2D 与 3D 生成模型的单视图人体重建

01 动机

从单张图像重建穿衣人体的三维模型，是计算机视觉中的核心难题。现有方法面临两难困境：多视图 2D 生成模型（如 PSHuman）能捕捉精细纹理细节，但生成的多视图图像与三维结构缺乏一致性；而 3D 原生生成模型（如 Trellis）能生成连贯的几何形状，却缺乏精细细节，且严重依赖不准确的 SMPL 姿态估计。

"我们提出了一种新型框架，联合利用多视图和 3D 原生生成模型的优势，同时克服各自的局限性。"

SyncHuman Teaser — 与基线方法几何质量对比 — **图 1：SyncHuman 与基线方法的几何质量对比。**左起依次为 SMPL 拟合结果、PSHuman（多视图 2D 方法）、Trellis（3D 原生方法）以及本文方法 SyncHuman。可见 SyncHuman 在几何精度和纹理细节上均显著优于两类基线，且不依赖 SMPL 姿态先验。

0.8353Chamfer Distance ↓
（X-Humans，越低越好）

21.84PSNR ↑
（X-Humans，越高越好）

0.8741SSIM ↑
（X-Humans）

0.0786LPIPS ↓
（X-Humans，越低越好）

多视图 2D 方法的问题

多视图图像间三维结构不一致
从不一致视图重建导致几何误差累积
依赖扩散模型的随机性，无法保证跨视图一致性

3D 原生方法的问题

严重依赖 SMPL 姿态估计，误差传播明显
生成形状细节粗糙，纹理质量差
复杂服装结构难以保真重建

02 方法

SyncHuman 由两个核心模块构成：2D-3D 跨空间生成模型（通过双向同步注意力联合微调多视图与 3D 生成器）和多视图引导解码器（MVGD）（将 DINOv2 特征从生成的多视图图像注入 3D 解码过程），二者共同实现从单张图像到高保真三维人体的重建。

**图 2：SyncHuman 整体框架。**输入单张图像，首先通过 2D-3D 跨空间生成模型联合生成多视图图像和 3D 表示；随后，多视图引导解码器（MVGD）提取 DINOv2 视觉特征，通过特征注入机制增强三维几何细节与纹理质量，最终输出高保真着装人体网格。

核心组件一：2D-3D 跨空间同步注意力

在扩散去噪过程中，本文设计了双向的像素对齐同步注意力，使 2D 多视图分支与 3D 体素分支在每个时间步互相感知：

2D→3D 方向：每个 3D 体素向量在四个正交视图的对应 2D 特征图上查询像素对齐特征，获取外观细节指导。
3D→2D 方向：每个 2D 像素沿投影光线查询对应的 3D 体素列特征，获取几何结构约束。

训练采用结合 2D 和 3D 分支的 Flow Matching 损失。整体框架无需 SMPL 作为条件，仅以输入图像的 DINOv2 特征为条件进行生成。

双向同步注意力机制示意图 — **图 3：像素对齐双向同步注意力机制。**左：2D→3D 注意力，3D 体素查询对应视图的 2D 特征；右：3D→2D 注意力，2D 像素查询沿投影光线的 3D 体素特征。双向交互使两个分支在扩散过程中实时对齐，确保多视图图像与三维形状的一致性。

核心组件二：多视图引导解码器（MVGD）

在生成阶段结束后，MVGD 从生成的多视图彩色图和法线图中提取 DINOv2 特征，通过拼接（concatenation）和 MLP 层注入 FlexiCubes 解码器，将精细的视觉细节从 2D 图像域提升到三维几何域，显著提升表面法线一致性和纹理保真度。

训练设置

训练数据集：THuman2.1、CustomHumans、THuman3.0、2K2K（约 5,000 人体扫描）
2D-3D 模型：8× H800 GPU，batch=32，共 50,000 次迭代
解码器：1× H800 GPU，batch=4，共 14,000 次迭代
多视图分支：微调自 SD 2.1，batch=32，共 30,000 次迭代

推理速度

SyncHuman：38.57 秒
PSHuman：52.98 秒
Trellis：15.68 秒
在单张 H800 GPU 上测量；SyncHuman 比 PSHuman 快约 27%，但比 Trellis 慢约 2.5×。

03 实验

在 CAPE-NFP、CAPE-FP 和 X-Humans 三个测试集上（共 250 个扫描样本）评估几何精度（Chamfer Distance、P2S、Normal Consistency）和渲染质量（PSNR、SSIM、LPIPS）指标，与 ICON、ECON、GTA、SIFU、SiTH、Human3Diff、PSHuman、Trellis 等基线比较。

Table 1：定量对比结果（X-Humans 测试集）

方法	Cham. Dist ↓	P2S ↓	NC ↑	PSNR ↑	SSIM ↑	LPIPS ↓
ICON	1.4971	1.3920	0.8133	—	—	—
ECON	1.6425	1.4398	0.8054	—	—	—
GTA	1.5050	1.4662	0.8044	20.0084	0.8502	0.1129
SIFU	1.5391	1.4331	0.8093	20.6747	0.8455	0.1104
SiTH	1.5104	1.4345	0.7972	19.8245	0.8204	0.1182
Human3Diff	1.5034	1.4219	0.7468	19.7181	0.8065	0.1334
PSHuman	1.4377	1.1385	0.8393	20.8405	0.8523	0.0980
Trellis	2.0043	1.5053	0.7718	17.0786	0.7238	0.1529
SyncHuman（Ours）	0.8353	0.7593	0.8872	21.8385	0.8741	0.0786

**图 4：几何质量定性对比。**SyncHuman 重建的人体网格在服装细节（褶皱、领口、袖口）和整体形状准确性上均优于 PSHuman 和 Trellis，特别是在复杂姿态下表现尤为突出。

外观质量定性对比 — **图 5：外观（纹理）质量定性对比。**SyncHuman 生成的渲染图像在色彩保真度、纹理清晰度方面均超越基线方法，LPIPS 指标提升最为明显（0.0786 vs PSHuman 0.0980）。

消融实验

Table 2 验证了 2D-3D 跨空间同步模型的有效性：单独使用 Trellis（PSNR 17.079）或 PSHuman（PSNR 20.840），加入双向同步注意力后提升至 PSNR 21.838，Chamfer Distance 从 1.438 降至 0.835。Table 3 验证 MVGD 的贡献：相比原始解码器（微调后 PSNR 21.362），MVGD 将 PSNR 进一步提升至 21.838，并将 Chamfer Distance 从 0.887 降至 0.835。

消融配置	PSNR ↑	SSIM ↑	LPIPS ↓	Cham. ↓	P2S ↓
Trellis（原始）	17.079	0.724	0.153	2.004	1.505
Trellis（微调）	20.344	0.844	0.101	1.135	1.041
PSHuman	20.840	0.852	0.098	1.438	1.138
原始解码器（微调）	21.362	0.866	0.090	0.887	0.810
完整 SyncHuman	21.838	0.874	0.079	0.835	0.759

04 局限性

说明：前两条局限性为论文 Limitations 章节的明确陈述（stated）；后两条为根据方法设计推断（inferred）。

极端光照条件下的伪影 — **图 6（局限性示例）：**训练数据使用均匀光照渲染，导致在极端光照条件下重建纹理出现伪影。

光照偏差（stated）：训练数据均匀光照导致极端光照下出现伪影

论文明确指出："由于训练数据集使用均匀光照渲染，重建纹理在极端光照条件下可能出现伪影。"该问题源于训练集（THuman2.1 等）的渲染设置，导致模型对非均匀光照场景泛化能力有限。

训练数据规模有限（stated）：约 5,000 人体扫描，限制生成质量

论文明确指出："多视图生成模型仅从约 5,000 个人体扫描中微调自 SD 2.1，因此生成质量仍受到限制。"与通用扩散模型的数十亿图像训练相比，人体领域特定数据的稀缺制约了模型的泛化上限。

网格表面孔洞（inferred）：FlexiCubes 无水密约束导致网格不完整

方法使用 FlexiCubes 进行网格提取，该方法不强制水密（watertight）约束，可能导致生成网格出现表面孔洞，影响下游应用（如物理模拟、3D 打印）的适用性。

推理速度劣于纯 3D 方法（inferred）：38.57 秒 vs Trellis 15.68 秒

由于需要同时运行 2D 多视图分支和 3D 体素分支，并加入双向注意力交互，SyncHuman 的推理时间（38.57 秒/张）约为 Trellis（15.68 秒/张）的 2.5 倍，在实时或高吞吐量场景下存在明显瓶颈。