EurIPS 2025 Workshop · Epistemic Intelligence in ML

Towards Uncertainty Quantification in Generative Model Learning

首次形式化生成模型学习中的不确定性量化问题
Giorgio Morales · Frederic Jurie · Jalal Fadili  |  arXiv 2511.10710 · 2025

现有生成模型评估方法只关注学习分布与目标分布之间的"距离",却从未量化该测量本身的置信度。 本文形式化了"生成模型学习中的不确定性量化"问题,并提出以集成 Precision-Recall 曲线为核心工具, 通过多次独立训练的模型来捕获模型近似目标分布时的不确定性区间。

EurIPS 2025 Workshop cs.LG · cs.AI 2025-11-13 📄 arXiv:2511.10710 PDF
不确定性量化 Generative Models Precision-Recall Curves Epistemic Uncertainty Ensemble Methods DDPM Distribution Evaluation 生成模型评估

01 动机(Motivation)

生成模型(Generative Models)已广泛应用于粒子物理、天气预报、医疗等高风险领域。 然而,现有所有评估指标——FID、IS、Precision-Recall 等——仅测量学习分布与目标分布的"距离", 却完全忽视了这种测量本身蕴含的不确定性。一旦分布对齐偏差微小,就可能导致错误的科学结论或不可靠的预测。

"No work quantifies the confidence in the measured closeness between the learned and target distributions." —— 论文原文
不同复杂度模型的 PR 曲线集成
图 1:不同复杂度(C=1, 2, 4, 8 个残差块)的 DDPM 模型在截断高斯环形分布上训练所得到的集成 Precision-Recall 曲线。 阴影区域为 10th–90th 百分位区间,代表模型近似不确定性(model-induced uncertainty)。 C=2 与 C=4 的置信区间最窄,显示最低的模型不确定性。
4模型复杂度配置 (C=1,2,4,8)
M=30每组独立训练的模型数量
20k合成训练样本数
44.2%C=4 显著优于 C=2 的 PR 曲线占比

02 方法(Method)

本文并非提出一个完整算法,而是建立形式化框架并推荐集成 Precision-Recall 曲线作为量化工具: 对同一训练集用不同随机初始化独立训练 M 个模型,为每个模型绘制 PR 曲线, 然后在统一的 recall 网格上插值并统计百分位区间,以直观展示评估置信度。

形式化框架:不确定性分解

作者将模型诱导不确定性(model-induced uncertainty)定义为不同初始化下分布度量指标的方差:

𝒰_model = 𝔼[𝔻(P_r, P_g^(θ))²] − 𝔼[𝔻(P_r, P_g^(θ))]²

进一步,总评估不确定性(total evaluation uncertainty)同时纳入模型初始化的随机性与有限采样引入的噪声, 是生成模型可靠性评估的完整度量目标。

集成 Precision-Recall 曲线

具体做法:训练 M 个独立的生成模型 → 生成各自的 PR 曲线 → 在公共 recall 网格上插值 → 计算每个 recall 点的 10th–90th 百分位置信带。 采用百分位区间而非标准差区间,是为了更好地处理小 ensemble 下的偏斜分布与离群值问题。

真实样本与 C=4 生成样本对比
图 2:截断高斯环形分布的真实样本(左)与 C=4 的 DDPM 生成样本(右)。 两者在视觉上高度相似,但仅靠目测无法量化学习差异;PR 曲线集成正是用于精确化这种差距。

统计假设检验

在模型比较场景下,作者引入配对 t 检验(paired t-test), 对两组 M 个模型的 PR 曲线在每个 recall 值处进行统计比较, 以检验两种配置是否存在显著性差异,为工程决策提供统计依据。

03 实验(Experiments)

实验在合成截断高斯环形分布(20,000 个样本)上训练 DDPM, 通过控制残差块数量 C ∈ {1, 2, 4, 8} 模拟欠拟合至过拟合的连续谱, 并通过改变数据集大小(5,000 / 20,000)验证数据量对评估不确定性的影响。

C=2 与 C=4 模型的 PR 曲线显著性对比
图 3:C=2 与 C=4 模型的集成 PR 曲线对比,以及配对 t 检验的显著性区域。 绿色高亮区域表示 C=4 在 0.05 显著性水平下显著优于 C=2 的 recall 区间(占曲线长度 44.2%)。

模型复杂度分析

模型配置置信区间宽度结论
C=1(单残差块)最宽欠拟合,高 model uncertainty
C=2最窄之一最优复杂度候选
C=4最窄之一最优复杂度候选,统计上优于 C=2
C=8较宽过拟合迹象,不确定性上升
不同数据集大小的 PR 曲线
图 4:训练集大小从 20,000 缩减至 5,000 时的集成 PR 曲线变化。 小数据集导致更宽的置信区间(更高的 epistemic uncertainty), 且 "smaller datasets also led to worse performance metrics, as the area under the PR curves decreases consistently"。

关键结论

04 局限性(Limitations)

Note:以下局限性均为论文作者在 Discussion 部分明确指出的。
计算开销大(Computational Overhead)

生成集成 PR 曲线需要训练 M 个独立模型,对于复杂生成任务而言"computationally prohibitive"。 尽管作者认为在可靠性关键应用中此开销是合理的,但大规模实际部署仍面临挑战。

特征空间依赖性(Feature Space Dependency)

方法依赖基于 kNN 的估计器在某特征空间中计算距离。 论文指出 "the diagnostic depends on the feature space used to compute distances for the kNN-based estimator", 在高维数据(如图像)中需要预训练特征提取器,选择不同特征空间会影响结论。

统计严谨性不足(Statistical Rigor)

百分位带可视化虽然实用,但缺乏形式化保证。 配对 t 检验假设成对差值近似正态,且在不同 recall 值上的多重检验需要校正或采用非参数置换检验替代。 M=30 的 ensemble 大小对假设检验是标准选择,但"bootstrap or permutation methods are safer for small ensemble sizes"。

扩展性存疑(Scalability to Complex Domains)

本文实验仅限于简单合成分布(二维高斯环)。 作者承认将方法迁移到高维图像数据,以及 GAN、VAE、Flow-based 等不同模型族时, "the nature and magnitude of evaluation uncertainty might differ significantly",尚待验证。