Diffusion Model Guided Sampling with Pixel-Wise Aleatoric Uncertainty Estimation

01 动机 Motivation

扩散模型在图像生成领域取得了显著进展，但生成样本的质量良莠不齐，且缺乏量化评估手段。在安全敏感应用（如医学影像、自动驾驶）中，理解并量化生成样本的不确定性至关重要。现有不确定性方法（如 MC Dropout、集成方法）计算代价高昂，或对模型结构有侵入性要求；唯一面向扩散模型的逐像素方法 BayesDiff 需要显著的额外计算开销，且未将不确定性用于引导生成。

"understanding and quantifying the uncertainty associated with generated samples is crucial for ensuring the quality of the data"

qualitative results with and without uncertainty guidance — **图1：** Stable Diffusion 3 和 1.5 在有无不确定性引导下的生成对比。上行为标准生成，下行为 uncertainty-guided 生成结果，伪影更少、细节更忠实。

20本方法 NFEs（函数评估次数）

130BayesDiff 所需 NFEs（6.5×）

−1 FIDuncertainty guidance 带来的平均改善

Training-free无需修改或重新训练模型

02 方法 Method

方法核心是：在每个采样步骤 t，先从当前带噪样本 X_t 近似预测干净图像 X̂₀，再利用扩散模型正向过程的加噪分布对 X̂₀ 进行 M 次微扰，得到多个噪声变体，最终以这些变体预测分数的方差作为逐像素 aleatoric uncertainty 的代理估计。所得不确定性图可用于两个下游任务：过滤低质量样本（uncertainty filtering），以及引导采样（uncertainty guided sampling）。

uncertainty estimation algorithm illustration — **图2：不确定性估计算法示意（时间步 t）。** Step 1：由 X_t 和噪声预测网络 ε_θ 近似 X̂₀； Step 2：从加噪分布 q(X̂_tⁱ | X̂₀) 采样 M 个变体； Step 3：计算各变体的预测分数方差，得到不确定性图 U_t。

逐像素不确定性估计（Algorithm 1）

首先，从当前步 X_t 近似重建干净图像：

X̂₀ = (X_t − √(1−ᾱ_t) ε_θ(X_t, t)) / √ᾱ_t

接着对 X̂₀ 施加扩散正向加噪，得到 M 个噪声变体 {X̂_tⁱ}，对每个变体运行去噪网络得到分数估计 E_t，不确定性图定义为：

U_t = diag((E_t − Ē_t)^T(E_t − Ē_t))

理论上，该估计近似于加噪分布的 Fisher information（对数似然的二阶导数的负期望），从而为不确定性估计赋予了信息几何学意义。

不确定性引导采样（Algorithm 2）

利用不确定性图对分数估计进行梯度修正：高不确定性像素（超过分位阈值 p 的区域）通过梯度更新 ∂U_t/∂ε_t 引导噪声预测修正，更新强度由超参数 λ 控制：

ε̂_t = ε_t + λ · (I[U_t > p] · ∂U_t/∂ε_t)

该操作在每个采样步骤插入，鼓励模型降低高不确定性区域的分数估计方差，从而产生质量更高的样本。

pixel space uncertainty schedule over sampling steps — **图3：像素空间不确定性随采样进程的变化曲线。** 以 ADM 在 60,000 张 ImageNet 样本上统计，蓝线为平均值，阴影为标准差。可见不确定性在最后去噪阶段（约 75–90% 进程处）急剧升高，说明最终几步对生成质量影响最大。

03 实验 Experiments

在 ImageNet（64×64、128×128、256×256、512×512）和 CIFAR-10 上评估，使用模型：ADM（ImageNet64/128）、U-ViT（ImageNet256/512）、DDPM（CIFAR-10）。评估指标：FID（图像质量）、AUSE（不确定性校准，越低越好）、AURG（越高越好）。

不确定性过滤（Uncertainty Filtering，Table 1）

从 60,000 张生成图像中按不确定性排序，过滤高不确定性样本后重新计算 FID。

模型	数据集	Random（基线）	Ours	BayesDiff	MC-Dropout
ADM	ImageNet64	3.289	3.254	—	3.268
ADM	ImageNet128	8.21	7.88	8.45	—
ADM w/2-DPM	ImageNet128	8.50	8.48	9.67	—
U-ViT	ImageNet256	7.88	7.80	6.81	—
U-ViT	ImageNet512	16.47	16.37	16.87	—
DDPM	CIFAR-10	13.494	13.416	—	13.435

注：在 ImageNet256 上 BayesDiff 取得了更好的 FID（6.81 vs 7.80），本文方法略逊一筹，但本文方法仅需 20 NFEs，而 BayesDiff 需要 130 NFEs（高出约 6.5×）。

不确定性引导采样（Uncertainty Guided Sampling，Table 3）

在标准采样流程中插入不确定性引导更新，生成 10,000 张图像后比较 FID。

模型	数据集	Normal 采样	Uncertainty-Guided	ΔFID
ADM	ImageNet64	24.16	23.21	−0.95
ADM	ImageNet128	45.10	44.02	−1.08
DDPM	CIFAR-10	27.39	26.45	−0.94
U-ViT	ImageNet256	51.45	50.34	−1.11
U-ViT	ImageNet512	60.72	59.81	−0.91

不确定性校准质量（Table 2，图像重建任务）

数据集	指标	Our Method	MC-Dropout
ImageNet64	AUSE ↓ / AURG ↑	74.48 / 5.05	84.94 / −4.85
CIFAR-10	AUSE ↓ / AURG ↑	0.01 / 18.48	1.27 / 16.19

uncertainty maps from the proposed method — **图4：逐像素不确定性图示例（推断噪声方案）。** 高不确定性区域（亮色）集中在图像的边缘、纹理复杂区域，与感知质量问题高度吻合。

消融实验

作者对分位阈值 p（percentile）和引导强度 λ 进行了超参数扫描。结果表明：p 在 75–90 分位附近、λ 在较小范围内时效果最稳定。 M（扰动次数）的选择在计算效率与校准精度之间存在权衡：更大的 M 在 CIFAR-10 和 ImageNet64 上带来边际收益，但增加了计算开销。

ablation on percentile hyperparameter — **图5：百分位阈值 p 的消融结果。** 不同数据集上随着 p 的变化，FID 呈现先下降后上升的趋势，说明只聚焦于最高不确定性的少数像素时效果最好。

04 局限性 Limitations

说明： 本文没有设置独立的 Limitations 小节。以下局限性部分为作者在实验讨论中明确提及的已知不足（stated），部分为从方法设计推断（inferred）。

在 ImageNet256 上被 BayesDiff 超越（stated）

在 ImageNet256 的不确定性过滤实验中，本文方法的 FID 为 7.80，而 BayesDiff 达到 6.81——低于本文方法。作者在实验结果中明确列出了这一数据，并未回避。这表明在较大分辨率的过滤任务上，本文方法尚有提升空间。

性能依赖超参数选择（inferred）

方法引入两个超参数：分位阈值 p（决定哪些像素被引导）和更新强度 λ。消融实验表明不同数据集/模型下最优值不同，需要在实际部署时针对具体设置进行调整，降低了"开箱即用"的便捷性。

引导仅作用于高不确定性像素（inferred）

indicator function I[U_t > p] 限定了梯度更新仅在超过阈值的像素上生效，对于不确定性分布较均匀（全图不确定性相近）的样本，引导效果可能有限。