AISTATS 2026 · 生成模型 · Generative Models

Quantifying Epistemic Uncertainty in Diffusion Models

在扩散模型中量化认知不确定性
Aditi Gupta, Raphael A. Meyer, Yotam Yaniv, Elynn Chen, N. Benjamin Erichson

扩散模型的不确定性估计长期将认知不确定性(epistemic uncertainty,来自模型参数的不确定性)与偶然不确定性(aleatoric uncertainty,来自随机采样的固有噪声)混为一谈。本文提出 FLARE(Fisher-Laplace Randomized Estimator),通过 Fisher 信息将参数不确定性显式传播至去噪轨迹,从而产生更可靠的生成样本可信度评分。

AISTATS 2026 时间序列生成 贝叶斯深度学习 📄 arXiv:2602.09170 PDF
扩散模型 Epistemic Uncertainty Laplace Approximation Fisher Information FLARE 不确定性量化 贝叶斯深度学习 时间序列生成

01 动机

扩散模型在图像合成、时间序列预测等领域取得了显著成效,但其不确定性估计机制至今仍不完善。核心问题在于:现有方法将两种性质截然不同的不确定性混在一起处理,导致对生成样本质量的判断失去可信度。

"Common proxies such as sample variance conflate epistemic and aleatoric effects." — 当模型反复采样,输出的方差既包含了采样随机性(aleatoric),也混入了参数不确定性(epistemic),二者无法拆分。

现有方法的两大缺陷:

本文的核心问题:当模型本身由于参数不确定性而"不确定"时,如何可靠地识别并过滤掉低可信度的生成样本?

93.1%Gap-Closure (Sines)
FLARE vs 47.2% LLLA
85.0%Gap-Closure (Damped)
FLARE vs −18.75% LLLA
0.5003ROC-AUC (Sines)
近似随机基准 0.5
O(1/√m)随机子网络近似
收敛率理论保证

02 方法

FLARE 基于 Fisher–Laplace 框架,将参数后验协方差通过去噪器的 Jacobian 矩阵逐步传播到生成轨迹中,从而精确刻画每条轨迹的认知不确定性,同时通过随机子网络采样保持计算可行性。

四路认知不确定性比较
图:四路 epistemic UQ 全曲率对比。从左到右分别为:BayesDiff(last-layer Laplace,total recursion)、Fuller-Hessian Laplace(BayesDiff recursion)、BayesDiff(epistemic-only recursion)、以及 FLARE(Fisher–Laplace projection)。在可精确计算全曲率的受控环境下,BayesDiff 产生的不确定性图谱缺乏认知含义,而 FLARE 能紧密追踪基于曲率的基准,同时避免了完整 Hessian 计算。

A. Fisher 信息引导的参数不确定性投影

在 Laplace 近似下,参数后验为高斯分布 θ ~ N(θ̂, Σ_θ)。FLARE 通过去噪器在每一步的 Jacobian J_t 将参数空间的不确定性投影到样本空间,得到认知协方差:

Σept-1|t(η) = b²_t · J_t · Σ_θ · J_t

这一公式将认知方差从偶然噪声中显式隔离出来,沿整条反向扩散轨迹产生"认知视角"。

B. 多步认知递推传播

不确定性通过去噪步骤逐层向前递推,形成轨迹级的累积认知协方差:

Σept-1(η) = a²_t · Σept(η) + b²_t · J_t · Σ_θ · J_t

与仅考虑最终步骤的 LLLA 不同,这种递推式传播能捕捉整个去噪链条上每一步的参数敏感性。

C. 随机子网络近似(Randomized Subnetwork Approximation)

完整 Fisher 信息矩阵的计算代价与网络参数量的平方成正比,对大型扩散模型不可行。FLARE 的解决方案:

Theorem 1 证明了该随机近似的近似误差以 O(1/√m) 速率收敛,随参数采样量 m 的增加而降低,提供了严格的理论保证。

参数预算消融实验(Bimodal)
图:参数预算消融(FullSubnetLaplace,Bimodal Sinusoidal 数据集上半部分)。保留参数比例依次为 {1%, 5%, 10%, 30%, 50%}。随着保留比例增大,轨迹逐渐收紧到数据流形附近,认知协方差平滑收缩;10–30% 时已能观察到稳定的 mode coverage,30–50% 后收益递减。
参数预算消融实验(Chirp)
图:参数预算消融(Chirp 数据集下半部分)。同样规律:少量参数(10–30%)已足以捕捉关键的不确定性结构,计算效率与精度达到良好平衡。

03 实验

在三个合成时间序列基准数据集上,与 BayesDiff 和 LLLA 两种基线进行对比,评估指标包括 Gap-Closure(越高越好,衡量高质量样本判别能力)和 ROC-AUC(越低越好,0.5 为随机水平)。所有改进均达到统计显著性(p < 0.005)。

数据集

三个合成时间序列基准,各自对应一种建模挑战:

数据集 方法 Gap-Closure (%) ROC-AUC p 值 (bootstrap)
SinesBayesDiff+13.370.61530.0001
LLLA+47.190.58140.0201
FLARE+93.080.50030.0012
ChirpBayesDiff+41.730.66160.0030
LLLA+59.060.58910.0116
FLARE+74.310.53450.0002
Damped SinesBayesDiff+10.400.68610.0001
LLLA−18.750.77540.0066
FLARE+85.000.50850.0002
Bimodal Sinusoidal 数据集可视化
(a) Bimodal Sinusoidal。训练集示例:双峰正弦波,代表典型的多峰分布挑战,需要模型在两个模式间正确估计不确定性。
Chirp 数据集可视化
(b) Chirp。频率随时间变化的正弦波,测试模型在外推区域(数据稀疏处)的 epistemic 不确定性估计能力。
Damped Sinusoidal 数据集可视化
(c) Damped Sinusoidal。幅度衰减的正弦波,FLARE 过滤后成功抑制伪振荡,保留符合衰减规律的轨迹。LLLA 在此数据集上 Gap-Closure 为负(−18.75%),而 FLARE 达到 +85.00%,差距最为悬殊。

定性结论

通过 FLARE 过滤后的样本呈现出三个一致特征:

"The largest gains occur in settings requiring extrapolation or mode selection, where separating epistemic from aleatoric uncertainty is most critical."

04 局限性

Note: 以下局限性均为作者在论文中明确承认的内容。
评估范围局限于合成时间序列

本文的实验仅在一维合成时间序列基准(Bimodal Sinusoids、Chirp、Damped Sinusoids)上进行。作者指出,将方法扩展到"更高维度领域,如多变量时间序列或图像生成,仍是一个重要的未来方向"("extension to higher-dimensional domains such as multivariate time series or image generation remains an important direction")。能否在真实世界数据或图像扩散模型上取得同等效果尚待验证。

大规模扩散模型的可扩展性挑战

尽管随机子网络采样显著降低了计算成本,但作者承认"在非常大的扩散模型中近似曲率信息仍然代价高昂"("approximating curvature information in very large diffusion models is still demanding")。对于包含数十亿参数的现代扩散模型(如 Stable Diffusion),即便是随机子网络方案也面临内存和时间上的严峻挑战。

近似策略仍有改进空间

作者建议探索"结构化或自适应子采样策略、低秩曲率近似"("structured or adaptive subsampling strategies, low-rank curvature approximations")以进一步提升大型模型的适用性。现有的均匀随机采样方案在参数重要性差异悬殊时可能并非最优选择。