DEUA: Diffusion Epistemic Uncertainty with Asymmetric Learning for Diffusion-Generated Image Detection

01 动机

扩散模型生成的图像质量极高，现有检测方法普遍依赖重建误差来区分真假，但这一指标受固有数据噪声严重干扰，无法提供可靠的判别信号。

"Aleatoric uncertainty, arising from inherent data noise, creates ambiguity that impedes accurate detection of generated images. In contrast, epistemic uncertainty…represents the model's lack of knowledge about unfamiliar patterns, supports detection."

Uncertainty distributions comparison — 图 1：重建误差（左）、偶然不确定性（中）与认识论不确定性（右）的分布对比。重建误差在真假图像之间高度重叠，而认识论不确定性（DEU）为真实图像与生成图像提供了更清晰的判别边界。

现有基于重建误差的方法存在两个核心问题：

偶然不确定性污染：重建误差混入固有数据噪声，使真假图像的误差分布严重重叠，难以区分。
"Sink class"现象：标准分类器将真实图像作为涵盖一切特征的"兜底类"（catch-all category），导致决策边界扭曲，跨域泛化能力弱。

+6.5%vs. LaRE2 on GenImage (无 DR 增强)

+7.4%vs. DRCT/UniFD on DRCT-2M (有 DR 增强)

+35.8%跨数据集泛化 ACC 提升（vs. LaRE2）

+22.0%非对称学习在 BigGAN 子集的 ACC 提升

02 方法

DEUA 框架由两个核心模块构成：基于 Last-Layer Laplace Approximation（LLLA）的扩散认识论不确定性估计（DEU），以及针对真假类别非对称建模的 Asymmetric Contrastive Loss。

DEUA workflow architecture — 图 3：DEUA 整体架构。输入图像经预训练 VAE 编码后，在潜在空间执行 DDIM 采样（t=200），通过 LLLA 对最后一层参数进行后验估计，计算认识论不确定性特征（DEU）。DEU 特征经多头注意力生成空间注意力图，与 CLIP ResNet50 图像特征拼接后，送入非对称对比损失进行分类器训练。

扩散认识论不确定性估计（DEU）

论文通过 Lemma 1 推导出认识论不确定性的估计公式，其核心为对扩散模型最后一层参数在 MAP 点附近进行高斯后验近似：

q(θ) = 𝒩(θ; θ_MAP, Σ)

Monte Carlo 采样 M 组参数、N 组噪声，估计逆扩散过程均值的方差：

U(x_t-1|x, t) = Var_i(𝔼_j(μ_θᵢ(…)))

实现上采用预训练 VAE 在潜在空间操作，DDIM 采样步数设为 t=200，在鲁棒性测试中 t∈[100, 400] 范围内均保持稳定性能。DEU 特征经多头注意力（Multi-Head Attention, MHA）生成空间注意力图：

z_v = MHA(ū, u, v)

非对称对比损失（Asymmetric Contrastive Loss）

针对真假类别边界不对称的特性，论文引入类别独立的 margin 参数：

伪造类 margin m¹ = 1.0（默认）
真实类 margin m⁰ ≈ 0.6（实验最优）
总损失：ℓ(W) = ℓ_c(W) + λℓ_m(W)，λ=0.5

非对称边界使分类器不再将真实类作为"兜底"，有效压缩真实类特征空间，在 GAN 生成图像（与训练域差异大）上也获得显著的 margin 增益。

Reconstruction error and predictive ambiguity — 图 2：重建误差与预测歧义性的关系示意。偶然不确定性导致预测结果趋于模糊（接近 0.5），而 DEU 特征将真假图像推向决策边界两侧。

03 实验

实验在 GenImage（14 种生成器）和 DRCT-2M（大规模多样化扩散数据集）两大基准上进行，评估指标为平均准确率（ACC）和平均精度（AP）。基线方法包括 LaRE2、UniFD、DRCT 等。

主要结果对比（GenImage 基准）

方法	DR 增强	平均 ACC	Δ vs. prev. SOTA
LaRE2	无	79.1%	—
DEUA (ours)	无	85.6%	+6.5%
DRCT	有	89.1%	—
DEUA (ours)	有	91.5%	+2.4%

主要结果对比（DRCT-2M 基准）

方法	训练配置	平均 ACC	Δ
LaRE2	无 DR	88.0%	—
DEUA (ours)	无 DR	90.5%	+2.5%
DRCT / UniFD	有 DR + SDv2	91.4%	—
DEUA (ours)	有 DR + SDv2	98.8%	+7.4%

跨数据集泛化（DRCT-2M → GenImage）

方法	ACC	AP	性能降幅
LaRE2	53.7%	65.0%	−32.5%
DEUA (ours)	89.5%	94.5%	−5.8%

Cross-validation on GenImage generators — 图 4：在 GenImage 各生成器子集上的交叉验证结果。DEUA 在多种扩散生成器之间保持稳定的高准确率，而基线方法在特定生成器（如 BigGAN）上性能骤降。

消融实验（GenImage，表 4）

配置	ACC	AP
Baseline（CLIP only）	76.1%	90.7%
+ DEU	90.3%	98.7%
+ Asymmetric Loss	81.7%	93.8%
DEU + Asymmetric Loss（DEUA）	91.5%	99.7%

消融结果表明，DEU 单独贡献 +14.2% ACC 提升，非对称损失在 BigGAN 子集上带来 +22.0% ACC 增益，二者协同作用进一步将 AP 推至 99.7%。

Ablation: step and margin influence — 图 5：消融分析——扩散采样步数 t（左）与真实类 margin m⁰（右）对检测性能的影响。t∈[100, 400] 范围内性能稳健；m⁰≈0.6 时性能最优。

04 局限性

Note: 以下局限性部分由作者明确陈述，部分由论文设计与实验结果综合推断。

GAN 与扩散模型的域间差异（GAN-Diffusion Gap）

"When trained on the BigGAN subset, both methods performed poorly on diffusion-generated images"——GAN 生成图像与扩散生成图像在特征分布上存在本质差异，跨域检测仍是开放难题。非对称损失虽有缓解，但并未根本解决。

DR 变体（Diffusion Reconstruction Variants）脆弱性

当测试图像经扩散模型内绘（inpainting）等 DR 后处理时，DEUA 初期性能下降，需要引入 SDv2 重建数据作为额外训练样本才能恢复竞争力，增加了数据准备成本。

计算开销较大

DEU 估计需要 M 次参数采样 × N 次噪声采样的 Monte Carlo 过程，加之 VAE 编码与 DDIM 潜在空间重建，推理开销显著高于直接分类方法。

真实类分布宽泛问题尚未根本解决

论文承认"the wide range of features exhibited by the real class"是核心挑战，非对称学习提供了有效缓解，但真实图像多样性带来的 sink class 效应并未被彻底消除。