Improved Mean Flows：加速生成模型的挑战与改进

01 动机

快速前向生成模型（fastforward generative models）旨在用极少的函数评估次数（NFE）生成高质量图像。MeanFlow 是这一方向的代表性方法，但原始 MF 存在两个根本性挑战，限制了其性能和使用灵活性。

"原始 MF 的训练目标依赖于网络本身，而非构成一个标准的回归问题。" — 作者对第一个核心挑战的描述

挑战一：训练目标的网络依赖性

原始 MeanFlow 的目标中含有网络自身的输出，这使得训练目标并非固定的"监督信号"，而是随网络参数变化而变化的移动靶。实验表明，原始 MF 的训练损失不仅存在较大方差，甚至出现不下降的现象（non-decreasing loss）。

挑战二：固定 CFG 尺度缺乏灵活性

原始 MF 在训练时将 Classifier-Free Guidance 的尺度 ω 固定，但实验发现最优 CFG 尺度随模型容量和训练进度而变化（图 4）。固定 ω 导致同一模型无法在推理时灵活调整 guidance 强度，降低了实用性。

MeanFlow 概念对比图 — **图 1：** 原始 MeanFlow（左）通过网络自我代入预测平均速度，存在训练目标依赖网络的问题；改进方法（右）将训练重构为以瞬时速度为目标的合法回归问题，训练目标仅依赖于输入 z_t，与网络参数无关。

1.72iMF-XL/2 的 1-NFE FID
（ImageNet 256×256）

3.43→1.72原始 MF → iMF
约 50% 相对提升

33%参数量减少
（133M → 89M，Base 规模）

1-NFE单次函数评估
超越多步蒸馏方法

02 方法

iMF 在三个层面对原始 MeanFlow 进行了系统改进：将训练目标重构为 v-loss（velocity loss）、引入灵活的 guidance 条件化、以及用 in-context conditioning 替换参数密集的 adaLN-zero。

改进一：MeanFlow as v-loss（速度损失重构）

原始 MF 的训练目标可以分解为：对平均速度 u(z_t) 的预测，加上一个关于时间导数的修正项。通过引入 MeanFlow 恒等式，可以将目标重写为对瞬时速度 v(z_t) 的回归：

V_θ(z_t) ≜ u_θ(z_t) + (t−r) · JVP_sg(u_θ; v_θ)

其中 JVP（Jacobian-Vector Product）在 stop-gradient（sg）下计算，确保训练目标仅依赖当前输入 z_t，而与网络参数无关，构成合法的监督回归。

论文提出两种实现方式：Boundary condition（令 v_θ = u_θ(z_t, t, t)，无额外参数）和 Auxiliary head（独立的 v-head，共享主干参数，效果更优）。

MeanFlow 重构为 v-loss 的推导 — **图 2：** MeanFlow 可以被重构为以平均速度预测为参数化形式的速度损失（v-loss），推导基于 MeanFlow 恒等式关系。这一重构赋予了训练目标与网络无关的合法回归性质。

训练损失对比 — **图 3：** 训练损失曲线对比。原始 MF 表现出高方差和不下降的损失曲线（非标准回归的典型症状）；而改进后的 iMF 收敛更加稳定平滑。

改进二：灵活的 Guidance 条件化（Flexible Guidance）

实验发现，最优 CFG 尺度随模型大小和训练轮次显著变化（图 4），固定 ω 使得原始 MF 在不同推理场景下性能受限。

解决方案：将 guidance 尺度 ω 作为显式条件变量，在训练时从分布中采样（偏向较小值以稳定训练），使单个模型在推理时支持任意 CFG 尺度。论文进一步扩展为 Ω = {ω, t_min, t_max}，额外支持 CFG 的应用区间控制。

最优 CFG 尺度分析 — **图 4：** 不同训练 epoch 和推理步数下的最优 CFG 尺度（ω）差异显著。固定 ω 会导致在多数场景下使用次优的 guidance 强度，验证了灵活 guidance 设计的必要性。

改进三：In-context Conditioning（上下文条件化）

原始 DiT 使用参数密集的 adaLN-zero 来融合条件信息。iMF 改用多 token 的 in-context conditioning：每种条件（时间步 r, t；类别 c；guidance 因子 Ω）转化为若干可学习 token，与图像 token 拼接后统一送入 Transformer。

配置：类别条件用 8 个 token，其余条件各用 4 个 token。这一设计在 Base 规模上将参数量从 133M 减至 89M（减少 33%），同时 FID 进一步提升。

In-context Conditioning 架构 — **图 5（对应原文图 6）：** 改进的 in-context conditioning 架构。将每种条件类型（时间步、类别、guidance 因子）编码为多个 token 并拼接至图像 token 序列，取代了原来参数量较大的自适应层归一化（adaLN-zero），在减少参数的同时提升了性能。

03 实验

所有实验在 ImageNet 256×256 上进行，使用 FID 作为主要评价指标，NFE（Number of Function Evaluations）衡量生成效率。基线为原始 MF 及其他快速生成模型。

消融实验（Table 1）

通过逐步叠加各项改进，验证每个组件的独立贡献：

配置（iMF-B/2，640 epoch）	FID ↓	说明
原始 MF（无 CFG）	32.69	基线
+ v-loss（boundary condition）	29.42	改进 3.27
+ auxiliary head + CFG	5.68	引入 CFG，大幅提升
+ ω-conditioning	5.52	灵活 guidance（边际改进）
+ Ω-conditioning（含 CFG 区间）	4.57	提升 0.95
+ In-context conditioning（89M）	4.09	减少 33% 参数，FID 提升
+ 改进 Transformer 结构	3.82	进一步优化
完整 iMF-B/2（640 epochs）	3.39	最终 Base 模型

系统对比（Table 2）—— iMF 各规模

模型	参数量	NFE	FID ↓
MF-B/2（原始）	131M	1	6.17
iMF-B/2	89M	1	3.39
iMF-M/2	174M	1	2.27
iMF-L/2	409M	1	1.86
iMF-XL/2	610M	1	1.72
iMF-XL/2（2-NFE）	610M	2	1.54

与前沿方法对比（Table 3）—— ImageNet 256×256

方法	类别	参数量	NFE	FID ↓
MF-XL/2（原始 MeanFlow）	从零训练	675M	1	3.43
α-Flow-XL/2+	从零训练	676M	1	2.58
FACM-XL/2	蒸馏	675M	1	1.76
iMF-XL/2	从零训练	610M	1	1.72
DiT-XL/2（多步参考）	多步	675M	250	2.27
DDT-XL/2（多步参考）	多步	677M	250	1.26

iMF-XL/2 以 1.72 FID 超越了所有现有的蒸馏方法（FACM-XL/2 为 1.76），且无需任何预训练或蒸馏，同时参数量更少（610M vs 675M）。甚至超越了多步方法 DiT-XL/2（250 NFE，2.27 FID）。

**图 6（对应原文图 7）：** FID 训练曲线展示了各改进组件叠加的累积效果：从基线 6.17，经过 v-loss 重构（5.68）、灵活 guidance（4.57）、in-context conditioning（4.09），逐步改进至最终的 3.39（iMF-B/2）。

生成样本质量

iMF-XL/2 生成样本 — **图 7（对应原文图 8）：** iMF-XL/2 在 ImageNet 上的 1-NFE 非精选生成样本，展示了单步生成的高视觉质量，涵盖多个不同类别。

iMF-XL/2 更多生成样本 — **图 8（对应原文附录图）：** iMF-XL/2 在更多 ImageNet 类别上的非精选 1-NFE 生成样本，进一步验证了模型的多样性和生成质量。

消融：灵活 Guidance 的额外收益

在 Ω-conditioning 训练完成后，若将 guidance 尺度固定为 ω=1.0（即不使用 CFG），灵活 guidance 模型的 FID 为 20.95，而未经 Ω-conditioning 训练的对应模型为 30.76。这说明灵活 guidance 的训练机制本身对学习表示质量有正向迁移效果，即便在推理时不使用 CFG 也受益。

04 局限性

注：论文在 Conclusion 部分明确提出了一项局限性，其余为根据论文设计推断（inferred）的潜在限制。

Tokenizer 推理开销（stated — 作者明确指出）

论文原文指出："随着 1-NFE 生成的显著进步，tokenizer 在推理时产生的开销变得不可忽视（the use of a tokenizer begins to incur a non-negligible cost at inference time）"。在单步生成成为主要瓶颈被攻克后，图像编解码器的耗时占比相对上升。作者期待未来研究探索更高效的 tokenizer 或直接在像素空间进行生成。

训练成本仍然较高（inferred — 推断）

iMF-XL/2 模型有 610M 参数，需要在 ImageNet 上训练数百个 epoch。虽然无需预训练，但完整的从零训练过程对计算资源要求依然较高。论文未提供训练所需 GPU 小时数等具体信息。

评估局限于 ImageNet 256×256（inferred — 推断）

所有定量实验均在 ImageNet 256×256 类别条件生成上进行。对于文本条件生成（text-to-image）、更高分辨率（如 512×512 或更高）以及其他数据集上的泛化能力，论文未作评估，方法在这些设置下的适用性有待验证。

JVP 计算的额外开销（inferred — 推断）

v-loss 重构中使用了 Jacobian-Vector Product (JVP) 来计算时间导数，这在训练时引入了额外的计算开销（相当于一次额外的前向传播），可能增加每步训练时间。论文未明确量化这一开销的影响。