生成模型 · Generative Models

Generative Uncertainty in Diffusion Models

用贝叶斯框架自动识别扩散模型的低质量生成样本
Metod Jazbec, Eliot Wong-Toi, Guoxuan Xia, Dan Zhang, Eric Nalisnick, Stephan Mandt · arXiv 2025

扩散模型整体生成质量很高,但单次生成仍可能出现伪影或与条件不符的情况。本文提出"生成不确定性"(generative uncertainty)概念,借助 Laplace 近似将贝叶斯推断扩展到数十亿参数的大型扩散模型,通过语义似然度在潜空间中量化每张图像的不可靠程度,无需人工标注即可自动过滤低质量样本,从而显著提升生成集合的整体质量。

arXiv 2025-02-28 cs.LG · cs.AI ImageNet 256×256 📄 arXiv:2502.20946 PDF
Diffusion Models Generative Uncertainty Bayesian Inference Laplace Approximation 不确定性估计 Sample Quality Flow Matching CLIP

01 动机

扩散模型平均生成质量虽高,但单次采样仍会产生含有伪影的低质量图像,现有方法只能依赖人工审核来筛选——这既费时又难以规模化。

"How can Bayesian principles help us detect poor generations?" 如何用贝叶斯原则自动检测低质量生成样本?
方法概览图
图1:方法总览。对于给定噪声输入 z,从 Laplace 后验中采样 M 组模型参数,分别生成 M 张图像,将其映射到语义嵌入空间,再计算该分布的熵作为"生成不确定性"。高不确定性图像被自动标记为低质量候选并过滤。
7.89UViT 过滤后 FID (n=10K)
9.45随机基线 FID
25最少额外 NFE(优化版)
–0.27不确定性与 Realism 相关性(互补信号)

02 方法

核心思路:把分类任务中"预测不确定性"(predictive uncertainty)的概念迁移到生成模型——用后验预测分布的方差来衡量每个样本的可靠程度,并借助 last-layer Laplace approximation 和语义似然使之在大型模型上高效可行。

玩具示例
图2:二维高斯玩具示例。训练 ensemble (M=5) 后,过滤掉 50% 高不确定性样本,有效去除了两个模式之间的"幻觉"样本,分布质量大幅提升。

生成不确定性定义

对于给定的隐变量 z,生成不确定性定义为后验预测分布的变分度(variability):
u(z) := V(p(x | z, D))
其中 V(·) 为熵(entropy),p(x | z, D) 通过对参数后验积分得到。高 u(z) 意味着不同参数设置会产生差异显著的输出,即该样本是不可靠的。

Last-Layer Laplace Approximation(可扩展贝叶斯推断)

对超过 1 亿参数的扩散模型直接做完整贝叶斯推断计算上不可行。本文只在模型最后一层施加 Laplace 近似,将参数后验近似为高斯分布:
q(θ | D) = N(θ | θ̂, Σ),其中 Σ = (∇²_θ L(θ; D)|_θ̂)⁻¹
这样仅需在训练后一次性计算 Hessian 逆,无需重新训练,天然兼容任意预训练扩散或 Flow Matching 模型(post-hoc 方法)。

语义似然(Semantic Likelihood)

像素空间的似然在高维情况下失效(维度诅咒)。本文引入基于预训练编码器(如 CLIP)的语义似然:
p(x | g_θ(z); φ) = N(e(x) | c_φ(g_θ(z)), σ²I)
将生成图像和目标图像都投影到语义特征空间,再计算 Gaussian 似然。这使不确定性估计关注视觉语义质量而非像素级细节,大幅提升了对低质量样本的识别能力。

03 实验

在 ImageNet 256×256 上分别使用 UViT 和 ADM 两个扩散模型进行评估,与随机基线、BayesDiff 以及 aleatoric uncertainty (AU) 方法对比,指标为 FID、Precision、Recall。

模型 / 方法n=10K FID ↓Precision ↑备注
Ours (UViT)7.89~0.73M=5, T=50
BayesDiff (UViT)9.16~0.67
AU / Aleatoric Unc.9.20
随机基线9.45
Ours (ADM)10.36M=1, T=25(轻量版)
BayesDiff (ADM)11.20
随机基线 (ADM)11.31
UViT 过滤结果
图3:在 UViT 模型上,随过滤比例(filtering ratio)增大,本文方法的 FID 持续下降,始终优于 BayesDiff 和随机基线,Precision 也同步提升。
计算效率 Pareto 图
图4:计算效率 Pareto 图。横轴为额外 NFE(network function evaluations),纵轴为 FID。本文方法在不同计算预算下均优于 BayesDiff;优化配置 M=1, T=25 仅需 25 额外 NFE,即可超越所有基线。
最优低不确定性样本示例
图5:低不确定性样本示例(即模型最"有把握"的生成图像),视觉质量高、类别特征清晰,是各类别的"典范"图像。

Ablations 与补充分析

04 局限性

Note: 以下局限性部分由作者在论文中明确指出,部分为方法设计的自然结论。
对预训练编码器的强依赖性

语义似然依赖 CLIP 等预训练图像编码器,导致方法仅适用于自然图像领域。对于分子结构、文本、音频等其他扩散模型擅长的模态,目前暂无合适的编码器,方法无法直接迁移。

Laplace 近似的理论正当性不完备

作者明确指出:"Applying the Laplace approximation directly, without such reweighting, is not fully theoretically justified"——扩散模型的训练损失包含时间步加权,不严格符合 Laplace 理论要求的 likelihood + prior 形式,因此后验近似的理论保证存在缺口。

对角近似可能低估后验复杂度

为保持计算可行性,采用对角(diagonal)last-layer Laplace 近似,忽略参数间协方差。这可能无法完整捕捉真实后验的复杂结构,使不确定性估计的精度受限。论文作者也指出需要更系统地比较不同推断方法。

精度–多样性权衡(Precision-Recall Trade-off)

过滤高不确定性样本会降低 recall(即样本多样性),这与其他基于 guidance 的过滤方法面临的问题一致。用户在追求质量提升的同时需接受一定程度的多样性损失。

类别分布偏移

在 ImageNet 1000 类的条件生成中,不同类别的高不确定性比例不同,过滤后类别分布发生偏移,可能影响某些需要均匀类别覆盖的下游应用。