Generative Uncertainty in Diffusion Models

01 动机

扩散模型平均生成质量虽高，但单次采样仍会产生含有伪影的低质量图像，现有方法只能依赖人工审核来筛选——这既费时又难以规模化。

"How can Bayesian principles help us detect poor generations?" 如何用贝叶斯原则自动检测低质量生成样本？

方法概览图 — 图1：方法总览。对于给定噪声输入 z，从 Laplace 后验中采样 M 组模型参数，分别生成 M 张图像，将其映射到语义嵌入空间，再计算该分布的熵作为"生成不确定性"。高不确定性图像被自动标记为低质量候选并过滤。

7.89UViT 过滤后 FID (n=10K)

9.45随机基线 FID

25最少额外 NFE（优化版）

–0.27不确定性与 Realism 相关性（互补信号）

02 方法

核心思路：把分类任务中"预测不确定性"（predictive uncertainty）的概念迁移到生成模型——用后验预测分布的方差来衡量每个样本的可靠程度，并借助 last-layer Laplace approximation 和语义似然使之在大型模型上高效可行。

图2：二维高斯玩具示例。训练 ensemble (M=5) 后，过滤掉 50% 高不确定性样本，有效去除了两个模式之间的"幻觉"样本，分布质量大幅提升。

生成不确定性定义

对于给定的隐变量 z，生成不确定性定义为后验预测分布的变分度（variability）：
u(z) := V(p(x | z, D))
其中 V(·) 为熵（entropy），p(x | z, D) 通过对参数后验积分得到。高 u(z) 意味着不同参数设置会产生差异显著的输出，即该样本是不可靠的。

Last-Layer Laplace Approximation（可扩展贝叶斯推断）

对超过 1 亿参数的扩散模型直接做完整贝叶斯推断计算上不可行。本文只在模型最后一层施加 Laplace 近似，将参数后验近似为高斯分布：
q(θ | D) = N(θ | θ̂, Σ)，其中 Σ = (∇²_θ L(θ; D)|_θ̂)⁻¹
这样仅需在训练后一次性计算 Hessian 逆，无需重新训练，天然兼容任意预训练扩散或 Flow Matching 模型（post-hoc 方法）。

语义似然（Semantic Likelihood）

像素空间的似然在高维情况下失效（维度诅咒）。本文引入基于预训练编码器（如 CLIP）的语义似然：
p(x | g_θ(z); φ) = N(e(x) | c_φ(g_θ(z)), σ²I)
将生成图像和目标图像都投影到语义特征空间，再计算 Gaussian 似然。这使不确定性估计关注视觉语义质量而非像素级细节，大幅提升了对低质量样本的识别能力。

03 实验

在 ImageNet 256×256 上分别使用 UViT 和 ADM 两个扩散模型进行评估，与随机基线、BayesDiff 以及 aleatoric uncertainty (AU) 方法对比，指标为 FID、Precision、Recall。

模型 / 方法	n=10K FID ↓	Precision ↑	备注
Ours (UViT)	7.89	~0.73	M=5, T=50
BayesDiff (UViT)	9.16	~0.67	—
AU / Aleatoric Unc.	9.20	—	—
随机基线	9.45	—	—
Ours (ADM)	10.36	—	M=1, T=25（轻量版）
BayesDiff (ADM)	11.20	—	—
随机基线 (ADM)	11.31	—	—

UViT 过滤结果 — 图3：在 UViT 模型上，随过滤比例（filtering ratio）增大，本文方法的 FID 持续下降，始终优于 BayesDiff 和随机基线，Precision 也同步提升。

图4：计算效率 Pareto 图。横轴为额外 NFE（network function evaluations），纵轴为 FID。本文方法在不同计算预算下均优于 BayesDiff；优化配置 M=1, T=25 仅需 25 额外 NFE，即可超越所有基线。

最优低不确定性样本示例 — 图5：低不确定性样本示例（即模型最"有把握"的生成图像），视觉质量高、类别特征清晰，是各类别的"典范"图像。

Ablations 与补充分析

互补性：生成不确定性与 realism score 相关性仅为 -0.27，与 rarity score 相关性为 0.38，说明提供了独立的质量信号。联合过滤可进一步将 FID 降至 7.60（vs. 单独 realism+rarity 的 8.26）。
轻量化：将 M 从 5 减至 1、T 从 50 减至 25，额外 NFE 从 250 降至 25（降低 10×），性能仅略有损失，仍大幅超越随机基线。
Flow Matching：方法无缝适配 Flow Matching 模型，验证了 post-hoc 框架的通用性。
类别分布偏移：过滤高不确定性样本后，不同类别被过滤比例不同，导致类别分布轻微偏移。

04 局限性

Note: 以下局限性部分由作者在论文中明确指出，部分为方法设计的自然结论。

对预训练编码器的强依赖性

语义似然依赖 CLIP 等预训练图像编码器，导致方法仅适用于自然图像领域。对于分子结构、文本、音频等其他扩散模型擅长的模态，目前暂无合适的编码器，方法无法直接迁移。

Laplace 近似的理论正当性不完备

作者明确指出："Applying the Laplace approximation directly, without such reweighting, is not fully theoretically justified"——扩散模型的训练损失包含时间步加权，不严格符合 Laplace 理论要求的 likelihood + prior 形式，因此后验近似的理论保证存在缺口。

对角近似可能低估后验复杂度

为保持计算可行性，采用对角（diagonal）last-layer Laplace 近似，忽略参数间协方差。这可能无法完整捕捉真实后验的复杂结构，使不确定性估计的精度受限。论文作者也指出需要更系统地比较不同推断方法。

精度–多样性权衡（Precision-Recall Trade-off）

过滤高不确定性样本会降低 recall（即样本多样性），这与其他基于 guidance 的过滤方法面临的问题一致。用户在追求质量提升的同时需接受一定程度的多样性损失。

类别分布偏移

在 ImageNet 1000 类的条件生成中，不同类别的高不确定性比例不同，过滤后类别分布发生偏移，可能影响某些需要均匀类别覆盖的下游应用。