ICML 2026 · 生成模型

Adversarial Flow Models

对抗流模型:将对抗训练与确定性最优传输相融合,实现单步高质量图像生成
Shanchuan Lin  ·  Ceyuan Yang  ·  Zhijie Lin  ·  Hao Chen  ·  Haoqi Fan  ·  ByteDance Seed

本文提出 Adversarial Flow Models (AFM),一种同时属于对抗生成网络(GAN)与流匹配(Flow Matching)两大家族的生成模型框架。 通过引入最优传输正则化损失,AFM 将随机噪声确定性地映射为真实数据,从而稳定对抗训练并保留模型容量。 在 ImageNet 256px 单步生成任务上,AFM-XL/2 达到 FID 2.38,超越所有已知的一致性模型; 扩展到 112 层深度架构后进一步取得 FID 1.94,创下新的单步生成最优记录。

ImageNet 256px 单步 FID 2.38 (XL/2) 112 层 FID 1.94 📄 arXiv: 2511.22475 PDF 全文
关键词adversarial trainingflow matchingoptimal transport单步图像生成GANDiffusion TransformerFID生成模型gradient normalizationclassifier guidance

01 动机

现有单步生成方法面临两类核心问题:GAN 训练不稳定,一致性模型(Consistency Models)引入中间时间步监督导致模型容量受限。 作者指出,对抗目标本身无法确定唯一的优化目标,噪声到数据之间存在无穷多条合法的传输路径,导致 GAN 学到任意映射而非确定性最优传输。

"The adversarial objective alone does not define a single optimization target, leaving infinitely many valid transport maps between noise and data distributions."
方法对比示意图 —— GAN vs Flow Matching vs AFM
图 1:在 1D 高斯混合数据上的行为对比。 左:GAN 学到任意传输映射(非确定性)。中:Flow Matching 学到确定性映射但低步数下存在离散化误差。右:AFM 同时支持任意步数训练,并通过最优传输约束引导生成确定性映射,兼具两者优点。
2.38AFM-XL/2 单步 FID
(ImageNet 256px,带引导)
1.94112 层深度架构
单步 FID 最优
2.02AFM-XL/2 4 步 FID
(超过 MeanFlow/AlphaFlow)
3.98AFM-XL/2 单步 FID
(无引导,仍大幅优于 FM 250步 9.62)

先前工作的不足

GAN 的问题

  • 对抗目标无法唯一确定传输映射
  • 生成器学到随机/任意的噪声到数据映射
  • 训练在大型 Transformer 架构上不稳定
  • 判别器损失在 ImageNet 等复杂数据上容易发散

一致性模型的问题

  • 需要对每个中间时间步 t 进行监督(distillationconsistency training
  • 单步生成时模型容量被中间步骤占用,质量受限
  • 无法像单纯的 GAN 那样直接利用判别器的感知能力

02 方法

AFM 的核心思想:在标准 GAN 对抗目标之上,叠加一个二次最优传输正则化损失,利用 Brenier 定理保证存在唯一最优传输映射作为优化目标。 同时引入梯度归一化技术,使大型 Transformer 架构下的训练保持稳定。

λ_ot 参数对生成质量的影响
图 2:最优传输系数 λ_ot 的消融实验(单步生成,1D 高斯混合)。 λ_ot=0(纯 GAN)时模型学到任意映射;λ_ot 过大时输出趋向恒等映射(identity); 适当的 λ_ot(如 0.05)引导模型学到接近最优传输的确定性映射,分布对齐最佳。

核心损失:最优传输正则化

根据 Brenier 定理,在二次代价下存在唯一的最优传输映射。AFM 以此为理论基础,对生成器添加 OT 正则化损失:

ℒ_ot^G = 𝔼_z [ (1/n) · ‖G(z) − z‖² ]

该损失最小化生成样本与输入噪声之间的总传输距离,将优化方向偏置向唯一最优传输解,而非任意一个 GAN 解。 完整生成器目标为:

ℒ_AF^G = ℒ_adv^G + λ_ot · ℒ_ot^G

梯度归一化(Gradient Normalization)

在大型 Transformer 架构中,不同模型尺寸下梯度幅度差异显著,导致 λ_ot 超参数难以跨模型复用。 AFM 引入一个恒等算子 φ,在反向传播中对对抗梯度进行归一化:

φ'(G(z)) = (∂ℒ_adv^G / ∂G(z)) / (√n · √EMA(‖∂ℒ_adv^G / ∂G(z)‖², β₂))

该技术使对抗梯度的尺度与 OT 正则化梯度保持一致,无需针对每个模型尺寸手动调整超参数。

无梯度归一化时的训练曲线
无梯度归一化:对抗损失曲线剧烈震荡,训练不稳定。
有梯度归一化时的训练曲线
有梯度归一化:训练曲线平滑收敛,大模型下同样稳定。

多步扩展:任意时间步传输

AFM 可扩展到多步生成:在时间步 t ∈ [0,1] 上做线性插值 x_t = (1−t)·x + t·z, 生成器 G(x_s, s, t) 学习从时间步 s 到 t 的传输,OT 损失相应加权:

ℒ_ot^G = 𝔼 [ (1/n) · (1/w(s,t)) · ‖G(x_s, s, t) − x_s‖² ],w(s,t) = max(|s−t|, 0.001)

流引导(Flow-based Classifier Guidance)

为条件生成提供引导,AFM 采用基于流的分类器引导——在随机时间步 t' ~ 𝒰(0, 0.1) 上对插值样本计算分类器梯度, 模拟 Classifier-Free Guidance 的行为,从而在单步模型中也能享受强引导效果:

ℒ_cfg^G = 𝔼 [ −(1/n) · G(z,c)^T · ∇C(·, t', c) ]

架构:深度扩展(Deep Architecture)

生成器和判别器均采用标准 Diffusion Transformer(DiT),判别器新增可学习的 [CLS] token 输出 logit。 为提升单步生成质量,作者通过 Transformer Block 重复扩展模型深度,构建 56 层(2×)和 112 层(4×)变体, 无需中间步骤监督即可端到端训练。

深度架构示意图(来自论文 PDF 第 4 页)
深度架构(图 4):通过重复 DiT Block,构建 56 层和 112 层超深模型。 左:多步配置;右:单步超深配置。深度替代中间步骤监督,在等参数等计算量条件下显著提升生成质量。

03 实验

所有实验在 ImageNet 256px 上进行,使用预训练 VAE 将图像编码至 32×32×4 潜在空间。 优化器为 AdamW(β₁=0, β₂=0.9),学习率 1×10⁻⁴,批大小 256。 主要评测指标为 FID(越低越好)。

单步生成对比(Table 4,带引导)

方法 参数量 Epoch 引导方式 NFE FID ↓
iCT-XL/2675MNone134.24
Shortcut-XL/2675M250CFG110.60
MeanFlow-B/2131M240CFG16.17
AlphaFlow-B/2†131M240CFG15.40
MeanFlow-XL/2676M240CFG13.43
TiM-XL/2†664M300CFG13.26
AlphaFlow-XL/2†676M240CFG12.81
GigaGAN569M480Match-loss13.45
GAT-XL/2+REPA†602M40DA+cGAN12.96
StyleGAN-XL166MCG+cGAN12.30
AFM-B/2130M200CG+DA13.05
AFM-M/2306M120CG+DA12.82
AFM-L/2457M120CG+DA12.63
AFM-XL/2673M125CG+DA12.38

"our B/2 model surpasses many XL/2 consistency-based models"——AFM-B/2(FID 3.05)超越 MeanFlow-XL/2(FID 3.43), 以不足五分之一的参数量取得更优结果。

少步生成对比

方法步数(NFE)FID ↓
AFM-XL/212.38
AFM-XL/222.11
AFM-XL/242.02

无引导生成对比(Table 6)

方法NFEFID ↓
DiT-XL/2(标准流匹配)2509.62
AFM-XL/213.98
AFM-XL/222.36

即使没有分类器引导,AFM-XL/2 单步推理(FID 3.98)也显著优于标准 Flow Matching 250 步推理(FID 9.62), 说明判别器的感知损失能更好地捕捉数据流形结构。

深度架构扩展(Table 7)

深度参数量Epoch引导NFEFID ↓
28 层(1×基准)675M95CG+DA22.11
56 层(2×)675M95CG+DA12.08
28 层(1×基准)675M145CG+DA42.02
112 层(4×)675M120CG+DA11.94

"surpasses their 28-layer 2-step and 4-step counterparts"——112 层单步模型(FID 1.94)超越 28 层 4 步模型(FID 2.02), 表明深度可以取代多步骤监督,为提升单步生成质量提供了新方向。

定性结果

GAN 单步生成结果
GAN(纯对抗):单步生成,分布不一致,细节模糊。
Flow Matching 单步生成结果
Flow Matching:单步推理时离散化误差明显,质量下降。
AFM 单步生成结果
AFM(本文方法):λ_ot=0.05,单步生成质量明显提升,分布对齐最佳。

消融实验

04 局限性

说明:以下前两点为论文原文明确陈述(stated),后两点为根据方法设计的推断(inferred)。 论文未设独立"Limitations"章节,相关内容散布于结论与附录中。
训练计算开销较高(stated)

判别器网络大幅增加显存占用,每次迭代需要多次前向传播。 训练时间约为一致性模型的 1.88 倍(相对于 AlphaFlow 的计算量对比)。 这限制了在资源受限环境下的可扩展性。

依赖分类器引导,未支持 Classifier-Free Guidance(stated)

当前方法采用外部分类器引导(Classifier Guidance, CG)而非 Classifier-Free Guidance(CFG)。 论文指出这是方法的一个技术约束,但同时表明 AFM 的流引导机制在单步模型中模拟了 CFG 的行为。

梯度消失问题需额外处理(stated)

论文附录详细说明了深度架构训练中存在梯度消失问题,需要专门的梯度归一化(Gradient Normalization)技术加以缓解。 这增加了实现复杂度。

目前仅为离散时间公式化,缺乏连续时间扩展(inferred)

当前框架基于离散时间步,论文结论中提到"continuous-time flow modeling extension"是未来工作方向, 说明当前方法尚不支持连续时间建模,限制了与连续时间流模型的直接对比和融合。

仅在 ImageNet 256px 上验证,其他任务/分辨率未知(inferred)

所有定量实验均在 ImageNet 256px 类条件生成任务上进行,未包含文本到图像、视频生成等其他生成任务, 方法在这些场景下的适用性有待验证。