arXiv 2512.02012 · cs.CV · 生成模型

Improved Mean Flows:加速生成模型的挑战与改进

单步生成 ImageNet 256×256,FID 达到 1.72,无需预训练或蒸馏
Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He

本文系统分析了 MeanFlow (MF) 框架在快速前向生成模型中存在的两大核心挑战:训练目标依赖于网络自身(非标准回归问题),以及推理时 Classifier-Free Guidance (CFG) 尺度固定缺乏灵活性。作者提出了改进版本 iMF,通过将训练目标重构为瞬时速度(instantaneous velocity)损失、引入灵活 guidance 条件化,以及设计轻量级 in-context conditioning,在 ImageNet 256×256 上以单次函数评估(1-NFE)达到 1.72 FID,相比原始 MF 的 3.43 FID 提升约 50%,且无需任何预训练或蒸馏。

ImageNet 256×256 1-NFE 单步生成 无蒸馏 · 从零训练 📄 arXiv:2512.02012 PDF 原文
关键词MeanFlowflow matching单步生成classifier-free guidancevelocity lossin-context conditioning图像生成快速生成模型FIDImageNet

01 动机

快速前向生成模型(fastforward generative models)旨在用极少的函数评估次数(NFE)生成高质量图像。MeanFlow 是这一方向的代表性方法,但原始 MF 存在两个根本性挑战,限制了其性能和使用灵活性。

"原始 MF 的训练目标依赖于网络本身,而非构成一个标准的回归问题。" — 作者对第一个核心挑战的描述

挑战一:训练目标的网络依赖性

原始 MeanFlow 的目标中含有网络自身的输出,这使得训练目标并非固定的"监督信号",而是随网络参数变化而变化的移动靶。实验表明,原始 MF 的训练损失不仅存在较大方差,甚至出现不下降的现象(non-decreasing loss)。

挑战二:固定 CFG 尺度缺乏灵活性

原始 MF 在训练时将 Classifier-Free Guidance 的尺度 ω 固定,但实验发现最优 CFG 尺度随模型容量和训练进度而变化(图 4)。固定 ω 导致同一模型无法在推理时灵活调整 guidance 强度,降低了实用性。

MeanFlow 概念对比图
图 1: 原始 MeanFlow(左)通过网络自我代入预测平均速度,存在训练目标依赖网络的问题;改进方法(右)将训练重构为以瞬时速度为目标的合法回归问题,训练目标仅依赖于输入 z_t,与网络参数无关。
1.72iMF-XL/2 的 1-NFE FID
(ImageNet 256×256)
3.43→1.72原始 MF → iMF
约 50% 相对提升
33%参数量减少
(133M → 89M,Base 规模)
1-NFE单次函数评估
超越多步蒸馏方法

02 方法

iMF 在三个层面对原始 MeanFlow 进行了系统改进:将训练目标重构为 v-loss(velocity loss)、引入灵活的 guidance 条件化、以及用 in-context conditioning 替换参数密集的 adaLN-zero。

改进一:MeanFlow as v-loss(速度损失重构)

原始 MF 的训练目标可以分解为:对平均速度 u(z_t) 的预测,加上一个关于时间导数的修正项。通过引入 MeanFlow 恒等式,可以将目标重写为对瞬时速度 v(z_t) 的回归:

V_θ(z_t) ≜ u_θ(z_t) + (t−r) · JVP_sg(u_θ; v_θ)

其中 JVP(Jacobian-Vector Product)在 stop-gradient(sg)下计算,确保训练目标仅依赖当前输入 z_t,而与网络参数无关,构成合法的监督回归。

论文提出两种实现方式:Boundary condition(令 v_θ = u_θ(z_t, t, t),无额外参数)和 Auxiliary head(独立的 v-head,共享主干参数,效果更优)。

MeanFlow 重构为 v-loss 的推导
图 2: MeanFlow 可以被重构为以平均速度预测为参数化形式的速度损失(v-loss),推导基于 MeanFlow 恒等式关系。这一重构赋予了训练目标与网络无关的合法回归性质。
训练损失对比
图 3: 训练损失曲线对比。原始 MF 表现出高方差和不下降的损失曲线(非标准回归的典型症状);而改进后的 iMF 收敛更加稳定平滑。

改进二:灵活的 Guidance 条件化(Flexible Guidance)

实验发现,最优 CFG 尺度随模型大小和训练轮次显著变化(图 4),固定 ω 使得原始 MF 在不同推理场景下性能受限。

解决方案:将 guidance 尺度 ω 作为显式条件变量,在训练时从分布中采样(偏向较小值以稳定训练),使单个模型在推理时支持任意 CFG 尺度。论文进一步扩展为 Ω = {ω, t_min, t_max},额外支持 CFG 的应用区间控制。

最优 CFG 尺度分析
图 4: 不同训练 epoch 和推理步数下的最优 CFG 尺度(ω)差异显著。固定 ω 会导致在多数场景下使用次优的 guidance 强度,验证了灵活 guidance 设计的必要性。

改进三:In-context Conditioning(上下文条件化)

原始 DiT 使用参数密集的 adaLN-zero 来融合条件信息。iMF 改用多 token 的 in-context conditioning:每种条件(时间步 r, t;类别 c;guidance 因子 Ω)转化为若干可学习 token,与图像 token 拼接后统一送入 Transformer。

配置:类别条件用 8 个 token,其余条件各用 4 个 token。这一设计在 Base 规模上将参数量从 133M 减至 89M(减少 33%),同时 FID 进一步提升。

In-context Conditioning 架构
图 5(对应原文图 6): 改进的 in-context conditioning 架构。将每种条件类型(时间步、类别、guidance 因子)编码为多个 token 并拼接至图像 token 序列,取代了原来参数量较大的自适应层归一化(adaLN-zero),在减少参数的同时提升了性能。

03 实验

所有实验在 ImageNet 256×256 上进行,使用 FID 作为主要评价指标,NFE(Number of Function Evaluations)衡量生成效率。基线为原始 MF 及其他快速生成模型。

消融实验(Table 1)

通过逐步叠加各项改进,验证每个组件的独立贡献:

配置(iMF-B/2,640 epoch)FID ↓说明
原始 MF(无 CFG)32.69基线
+ v-loss(boundary condition)29.42改进 3.27
+ auxiliary head + CFG5.68引入 CFG,大幅提升
+ ω-conditioning5.52灵活 guidance(边际改进)
+ Ω-conditioning(含 CFG 区间)4.57提升 0.95
+ In-context conditioning(89M)4.09减少 33% 参数,FID 提升
+ 改进 Transformer 结构3.82进一步优化
完整 iMF-B/2(640 epochs)3.39最终 Base 模型

系统对比(Table 2)—— iMF 各规模

模型参数量NFEFID ↓
MF-B/2(原始)131M16.17
iMF-B/289M13.39
iMF-M/2174M12.27
iMF-L/2409M11.86
iMF-XL/2610M11.72
iMF-XL/2(2-NFE)610M21.54

与前沿方法对比(Table 3)—— ImageNet 256×256

方法类别参数量NFEFID ↓
MF-XL/2(原始 MeanFlow)从零训练675M13.43
α-Flow-XL/2+从零训练676M12.58
FACM-XL/2蒸馏675M11.76
iMF-XL/2从零训练610M11.72
DiT-XL/2(多步参考)多步675M2502.27
DDT-XL/2(多步参考)多步677M2501.26

iMF-XL/2 以 1.72 FID 超越了所有现有的蒸馏方法(FACM-XL/2 为 1.76),且无需任何预训练或蒸馏,同时参数量更少(610M vs 675M)。甚至超越了多步方法 DiT-XL/2(250 NFE,2.27 FID)。

FID 训练曲线
图 6(对应原文图 7): FID 训练曲线展示了各改进组件叠加的累积效果:从基线 6.17,经过 v-loss 重构(5.68)、灵活 guidance(4.57)、in-context conditioning(4.09),逐步改进至最终的 3.39(iMF-B/2)。

生成样本质量

iMF-XL/2 生成样本
图 7(对应原文图 8): iMF-XL/2 在 ImageNet 上的 1-NFE 非精选生成样本,展示了单步生成的高视觉质量,涵盖多个不同类别。
iMF-XL/2 更多生成样本
图 8(对应原文附录图): iMF-XL/2 在更多 ImageNet 类别上的非精选 1-NFE 生成样本,进一步验证了模型的多样性和生成质量。

消融:灵活 Guidance 的额外收益

在 Ω-conditioning 训练完成后,若将 guidance 尺度固定为 ω=1.0(即不使用 CFG),灵活 guidance 模型的 FID 为 20.95,而未经 Ω-conditioning 训练的对应模型为 30.76。这说明灵活 guidance 的训练机制本身对学习表示质量有正向迁移效果,即便在推理时不使用 CFG 也受益。

04 局限性

注: 论文在 Conclusion 部分明确提出了一项局限性,其余为根据论文设计推断(inferred)的潜在限制。
Tokenizer 推理开销(stated — 作者明确指出)

论文原文指出:"随着 1-NFE 生成的显著进步,tokenizer 在推理时产生的开销变得不可忽视(the use of a tokenizer begins to incur a non-negligible cost at inference time)"。在单步生成成为主要瓶颈被攻克后,图像编解码器的耗时占比相对上升。作者期待未来研究探索更高效的 tokenizer 或直接在像素空间进行生成。

训练成本仍然较高(inferred — 推断)

iMF-XL/2 模型有 610M 参数,需要在 ImageNet 上训练数百个 epoch。虽然无需预训练,但完整的从零训练过程对计算资源要求依然较高。论文未提供训练所需 GPU 小时数等具体信息。

评估局限于 ImageNet 256×256(inferred — 推断)

所有定量实验均在 ImageNet 256×256 类别条件生成上进行。对于文本条件生成(text-to-image)、更高分辨率(如 512×512 或更高)以及其他数据集上的泛化能力,论文未作评估,方法在这些设置下的适用性有待验证。

JVP 计算的额外开销(inferred — 推断)

v-loss 重构中使用了 Jacobian-Vector Product (JVP) 来计算时间导数,这在训练时引入了额外的计算开销(相当于一次额外的前向传播),可能增加每步训练时间。论文未明确量化这一开销的影响。