Adversarial Flow Models

01 动机

现有单步生成方法面临两类核心问题：GAN 训练不稳定，一致性模型（Consistency Models）引入中间时间步监督导致模型容量受限。作者指出，对抗目标本身无法确定唯一的优化目标，噪声到数据之间存在无穷多条合法的传输路径，导致 GAN 学到任意映射而非确定性最优传输。

"The adversarial objective alone does not define a single optimization target, leaving infinitely many valid transport maps between noise and data distributions."

方法对比示意图 —— GAN vs Flow Matching vs AFM — **图 1：**在 1D 高斯混合数据上的行为对比。左：GAN 学到任意传输映射（非确定性）。中：Flow Matching 学到确定性映射但低步数下存在离散化误差。右：AFM 同时支持任意步数训练，并通过最优传输约束引导生成确定性映射，兼具两者优点。

2.38AFM-XL/2 单步 FID
（ImageNet 256px，带引导）

1.94112 层深度架构
单步 FID 最优

2.02AFM-XL/2 4 步 FID
（超过 MeanFlow/AlphaFlow）

3.98AFM-XL/2 单步 FID
（无引导，仍大幅优于 FM 250步 9.62）

先前工作的不足

GAN 的问题

对抗目标无法唯一确定传输映射
生成器学到随机/任意的噪声到数据映射
训练在大型 Transformer 架构上不稳定
判别器损失在 ImageNet 等复杂数据上容易发散

一致性模型的问题

需要对每个中间时间步 t 进行监督（distillation 或 consistency training）
单步生成时模型容量被中间步骤占用，质量受限
无法像单纯的 GAN 那样直接利用判别器的感知能力

02 方法

AFM 的核心思想：在标准 GAN 对抗目标之上，叠加一个二次最优传输正则化损失，利用 Brenier 定理保证存在唯一最优传输映射作为优化目标。同时引入梯度归一化技术，使大型 Transformer 架构下的训练保持稳定。

λ_ot 参数对生成质量的影响 — **图 2：**最优传输系数 λ_ot 的消融实验（单步生成，1D 高斯混合）。 λ_ot=0（纯 GAN）时模型学到任意映射；λ_ot 过大时输出趋向恒等映射（identity）；适当的 λ_ot（如 0.05）引导模型学到接近最优传输的确定性映射，分布对齐最佳。

核心损失：最优传输正则化

根据 Brenier 定理，在二次代价下存在唯一的最优传输映射。AFM 以此为理论基础，对生成器添加 OT 正则化损失：

ℒ_ot^G = 𝔼_z [ (1/n) · ‖G(z) − z‖² ]

该损失最小化生成样本与输入噪声之间的总传输距离，将优化方向偏置向唯一最优传输解，而非任意一个 GAN 解。完整生成器目标为：

ℒ_AF^G = ℒ_adv^G + λ_ot · ℒ_ot^G

梯度归一化（Gradient Normalization）

在大型 Transformer 架构中，不同模型尺寸下梯度幅度差异显著，导致 λ_ot 超参数难以跨模型复用。 AFM 引入一个恒等算子 φ，在反向传播中对对抗梯度进行归一化：

φ'(G(z)) = (∂ℒ_adv^G / ∂G(z)) / (√n · √EMA(‖∂ℒ_adv^G / ∂G(z)‖², β₂))

该技术使对抗梯度的尺度与 OT 正则化梯度保持一致，无需针对每个模型尺寸手动调整超参数。

无梯度归一化时的训练曲线 — **无梯度归一化：**对抗损失曲线剧烈震荡，训练不稳定。

有梯度归一化时的训练曲线 — **有梯度归一化：**训练曲线平滑收敛，大模型下同样稳定。

多步扩展：任意时间步传输

AFM 可扩展到多步生成：在时间步 t ∈ [0,1] 上做线性插值 x_t = (1−t)·x + t·z，生成器 G(x_s, s, t) 学习从时间步 s 到 t 的传输，OT 损失相应加权：

ℒ_ot^G = 𝔼 [ (1/n) · (1/w(s,t)) · ‖G(x_s, s, t) − x_s‖² ]，w(s,t) = max(|s−t|, 0.001)

流引导（Flow-based Classifier Guidance）

为条件生成提供引导，AFM 采用基于流的分类器引导——在随机时间步 t' ~ 𝒰(0, 0.1) 上对插值样本计算分类器梯度，模拟 Classifier-Free Guidance 的行为，从而在单步模型中也能享受强引导效果：

ℒ_cfg^G = 𝔼 [ −(1/n) · G(z,c)^T · ∇C(·, t', c) ]

架构：深度扩展（Deep Architecture）

生成器和判别器均采用标准 Diffusion Transformer（DiT），判别器新增可学习的 [CLS] token 输出 logit。为提升单步生成质量，作者通过 Transformer Block 重复扩展模型深度，构建 56 层（2×）和 112 层（4×）变体，无需中间步骤监督即可端到端训练。

深度架构示意图（来自论文 PDF 第 4 页） — **深度架构（图 4）：**通过重复 DiT Block，构建 56 层和 112 层超深模型。左：多步配置；右：单步超深配置。深度替代中间步骤监督，在等参数等计算量条件下显著提升生成质量。

03 实验

所有实验在 ImageNet 256px 上进行，使用预训练 VAE 将图像编码至 32×32×4 潜在空间。优化器为 AdamW（β₁=0, β₂=0.9），学习率 1×10⁻⁴，批大小 256。主要评测指标为 FID（越低越好）。

单步生成对比（Table 4，带引导）

方法	参数量	Epoch	引导方式	NFE	FID ↓
iCT-XL/2	675M	—	None	1	34.24
Shortcut-XL/2	675M	250	CFG	1	10.60
MeanFlow-B/2	131M	240	CFG	1	6.17
AlphaFlow-B/2†	131M	240	CFG	1	5.40
MeanFlow-XL/2	676M	240	CFG	1	3.43
TiM-XL/2†	664M	300	CFG	1	3.26
AlphaFlow-XL/2†	676M	240	CFG	1	2.81
GigaGAN	569M	480	Match-loss	1	3.45
GAT-XL/2+REPA†	602M	40	DA+cGAN	1	2.96
StyleGAN-XL	166M	—	CG+cGAN	1	2.30
AFM-B/2	130M	200	CG+DA	1	3.05
AFM-M/2	306M	120	CG+DA	1	2.82
AFM-L/2	457M	120	CG+DA	1	2.63
AFM-XL/2	673M	125	CG+DA	1	2.38

"our B/2 model surpasses many XL/2 consistency-based models"——AFM-B/2（FID 3.05）超越 MeanFlow-XL/2（FID 3.43），以不足五分之一的参数量取得更优结果。

少步生成对比

方法	步数（NFE）	FID ↓
AFM-XL/2	1	2.38
AFM-XL/2	2	2.11
AFM-XL/2	4	2.02

无引导生成对比（Table 6）

方法	NFE	FID ↓
DiT-XL/2（标准流匹配）	250	9.62
AFM-XL/2	1	3.98
AFM-XL/2	2	2.36

即使没有分类器引导，AFM-XL/2 单步推理（FID 3.98）也显著优于标准 Flow Matching 250 步推理（FID 9.62），说明判别器的感知损失能更好地捕捉数据流形结构。

深度架构扩展（Table 7）

深度	参数量	Epoch	引导	NFE	FID ↓
28 层（1×基准）	675M	95	CG+DA	2	2.11
56 层（2×）	675M	95	CG+DA	1	2.08
28 层（1×基准）	675M	145	CG+DA	4	2.02
112 层（4×）	675M	120	CG+DA	1	1.94

"surpasses their 28-layer 2-step and 4-step counterparts"——112 层单步模型（FID 1.94）超越 28 层 4 步模型（FID 2.02），表明深度可以取代多步骤监督，为提升单步生成质量提供了新方向。

定性结果

GAN 单步生成结果 — **GAN（纯对抗）：**单步生成，分布不一致，细节模糊。

Flow Matching 单步生成结果 — **Flow Matching：**单步推理时离散化误差明显，质量下降。

AFM 单步生成结果 — **AFM（本文方法）：**λ_ot=0.05，单步生成质量明显提升，分布对齐最佳。

消融实验

OT 损失的必要性：去掉 OT 正则化后，无论梯度惩罚强度如何，训练均发散。最优 λ_ot 约为 0.2（训练初期），需在训练过程中衰减至 0.01。
流引导的时间步选择：将引导时间步从 𝒰(0, 0.1) 采样可获得最优 FID（2.36），远小于标准 Flow Matching 的典型范围。
计算开销：与 AlphaFlow 相比，AFM 需要约 1.88× 的额外训练计算量，但 FID 提升约 15%。

04 局限性

说明：以下前两点为论文原文明确陈述（stated），后两点为根据方法设计的推断（inferred）。论文未设独立"Limitations"章节，相关内容散布于结论与附录中。

训练计算开销较高（stated）

判别器网络大幅增加显存占用，每次迭代需要多次前向传播。训练时间约为一致性模型的 1.88 倍（相对于 AlphaFlow 的计算量对比）。这限制了在资源受限环境下的可扩展性。

依赖分类器引导，未支持 Classifier-Free Guidance（stated）

当前方法采用外部分类器引导（Classifier Guidance, CG）而非 Classifier-Free Guidance（CFG）。论文指出这是方法的一个技术约束，但同时表明 AFM 的流引导机制在单步模型中模拟了 CFG 的行为。

梯度消失问题需额外处理（stated）

论文附录详细说明了深度架构训练中存在梯度消失问题，需要专门的梯度归一化（Gradient Normalization）技术加以缓解。这增加了实现复杂度。

目前仅为离散时间公式化，缺乏连续时间扩展（inferred）

当前框架基于离散时间步，论文结论中提到"continuous-time flow modeling extension"是未来工作方向，说明当前方法尚不支持连续时间建模，限制了与连续时间流模型的直接对比和融合。

仅在 ImageNet 256px 上验证，其他任务/分辨率未知（inferred）

所有定量实验均在 ImageNet 256px 类条件生成任务上进行，未包含文本到图像、视频生成等其他生成任务，方法在这些场景下的适用性有待验证。