NeurIPS 2025 · 生成模型 · Generative Models

Flow-GRPO:通过在线强化学习训练 Flow Matching 模型

首个将在线策略梯度 RL 引入 Flow Matching 的方法,大幅提升 T2I 组合生成与文字渲染能力
Jie Liu*, Gongye Liu*, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang†  |  MMlab CUHK · Tsinghua · Kling Team Kuaishou · Nanjing Univ. · Shanghai AI Lab

Flow-GRPO 将 GRPO(Group Relative Policy Optimization)引入 flow matching 生成模型。通过两项核心策略——ODE-to-SDE 转换(保持边缘分布不变的随机化)和 Denoising Reduction(训练时减少去噪步数)——实现了高效的在线 RL 训练,在组合图像生成(GenEval 63%→95%)、视觉文字渲染(59%→92%)和人类偏好对齐上均取得显著提升,且几乎无 reward hacking。

NeurIPS 2025 文本到图像 · T2I SD3.5-Medium 骨干 📄 arXiv:2505.05470 GitHub 代码
flow matching GRPO 在线强化学习 ODE-to-SDE reward hacking 文本到图像生成 Denoising Reduction 组合图像生成

01 动机(Motivation)

Flow matching 模型(如 SD3.5、FLUX)在图像生成上表现出色,但在多对象组合、属性绑定和文字渲染等复杂场景下仍有明显短板。在线强化学习(online RL)已被证明能显著提升大语言模型的推理能力,然而将其应用于 flow matching 模型面临两大根本挑战。

"This need for stochasticity in RL conflicts with the deterministic nature of flow matching models." — Flow matching 依赖确定性 ODE 采样,无法直接支持 RL 所需的随机探索;同时 flow model 推理需要大量去噪步数,数据收集代价极高。
Flow-GRPO GenEval性能曲线与图像质量对比
Figure 1.(左)GenEval 分数随训练时间稳步提升,最终以 0.95 超越 GPT-4o(0.84)。(右)DrawBench 图像质量指标(Aesthetic、DeQA)在训练后基本保持不变,Preference Score 上升。结果表明 Flow-GRPO 在提升目标能力的同时几乎无图像质量或多样性损失。
95%GenEval Overall(SD3.5-M + Flow-GRPO),超越 GPT-4o 的 84%
63%→95%组合图像生成准确率提升幅度
59%→92%视觉文字渲染(OCR)准确率提升幅度
Denoising Reduction 带来的训练采样加速比

核心挑战

02 方法(Method)

Flow-GRPO 将 GRPO 扩展到 flow matching 模型,核心包含两项技术创新:(1)ODE-to-SDE 转换,将确定性 ODE 采样转化为保持边缘分布不变的等价 SDE;(2)Denoising Reduction,训练时大幅减少去噪步数以加速数据收集,而推理时保留原始步数以保证质量。

Flow-GRPO 方法总览图
Figure 2. Flow-GRPO 方法总览。给定提示词,通过 ODE-to-SDE 策略引入随机性以支持在线 RL;利用 Denoising Reduction(T=10 步)高效采集低质量但信息丰富的轨迹;轨迹对应的奖励送入 GRPO loss,在线更新模型权重,得到对齐后的策略。右侧的 Group Relative Policy Optimization 通过组内相对优势归一化来估计策略梯度,无需额外 value network。

1. Denoising as a Markov Decision Process

Flow matching 的去噪过程被建模为 MDP(S, A, P, R):状态 s_t = (c, t, x_t),动作 a_t = x_{t-1}(模型预测的去噪样本),策略 π_θ 由 flow model 参数化。奖励仅在最终时步给出:R(s_T, a_T) = r(x_0, c)。这一 MDP 视角使得策略梯度方法可以直接适用。

2. ODE-to-SDE 转换(实现随机性)

原始 flow matching 使用确定性 ODE(dx_t = v_t dt),无法满足 RL 的随机采样需求。Flow-GRPO 将其转换为等价的反向时间 SDE:

dx_t = [v_θ(x_t) + (σ_t²/2t)(x_t + (1-t)v_θ(x_t))] dt + σ_t dw

其中 σ_t = a√(t/(1-t)),a 为控制随机程度的超参数。经 Euler-Maruyama 离散化后,策略 π_θ(x_{t-1} | x_t, c) 成为各向同性高斯分布,可以闭式计算 KL 散度,无需额外打分网络。关键数学保证:此 SDE 与原 ODE 在每个时间步的边缘分布完全相同,即转换不改变模型的生成分布。

3. GRPO 目标函数

GRPO 无需 critic/value network,通过组内相对归一化来估计优势:对每个提示词 c,采样 G 张图像,优势 Â_i = (R_i − mean(R)) / std(R)。训练目标:

J_Flow-GRPO = E[f(r, Â, θ, ε, β)],其中 f 包含 clip 截断的 PPO-style 比率项与 KL 正则项 −β·D_KL(π_θ ‖ π_ref)

KL 惩罚是防止 reward hacking 的关键:它将模型约束在预训练权重附近,从而保留图像质量和多样性。

4. Denoising Reduction(训练加速)

在线 RL 训练时,每次采集样本需运行完整去噪链,成本高昂。实验发现:将训练时去噪步数从 T=40 减少到 T=10,可获得超过 4× 的采样加速,而最终奖励和图像质量不受影响。推理时仍使用 T=40,保持生成质量。进一步减少至 T=5 则不一致地降低训练效率。

03 实验(Experiments)

在三类任务上评估 Flow-GRPO:(1)组合图像生成(GenEval benchmark);(2)视觉文字渲染(OCR 准确率);(3)人类偏好对齐(PickScore)。骨干模型为 Stable Diffusion 3.5-Medium(SD3.5-M)。图像质量通过 DrawBench 上的 Aesthetic Score、DeQA、ImageReward 和 UnifiedReward 独立评估以检测 reward hacking。

GenEval 基准(组合图像生成)

模型OverallSingle Obj.Two Obj.CountingColorsPositionAttr. Binding
FLUX.1 Dev0.660.980.810.740.790.220.45
GPT-4o0.840.990.920.850.920.750.61
SD3.5-M(基线)0.630.980.780.500.810.240.52
SD3.5-M + Flow-GRPO0.951.000.990.950.920.990.86

视觉文字渲染与人类偏好结果(Table 2)

模型GenEvalOCR Acc.PickScoreAestheticDeQAImgRwdUniRwd
SD3.5-M0.630.5921.725.394.070.873.33
Flow-GRPO w/o KL(GenEval)0.954.932.770.442.94
Flow-GRPO w/ KL(GenEval)0.955.254.011.033.51
Flow-GRPO w/ KL(OCR)0.925.324.060.953.42
Flow-GRPO w/ KL(PickScore)23.315.924.221.283.66

注:不加 KL 正则时(w/o KL),Aesthetic Score 从 5.39 降至 4.93,DeQA 从 4.07 降至 2.77,出现明显 reward hacking(图像质量下降)。加入 KL 后质量指标几乎与基线持平。

GenEval 定性对比
Figure 3. GenEval 定性对比。在 Counting(四头长颈鹿)、Colors(棕色长颈鹿 + 白色止停牌)、Attribute Binding(红色橙子 + 紫色西蓝花)和 Position(熊右侧的长椅)等任务上,SD3.5-M + Flow-GRPO(最下行)明显优于 FLUX.1 Dev、GPT-4o 和原始 SD3.5-M。

Ablation 分析

04 局限性(Limitations)

注:以下局限性均为论文 "Limitations & Future Work" 小节中作者明确陈述(stated)的内容。
当前仅针对 T2I 任务,视频生成尚未验证

本工作聚焦于文本到图像任务(T2I)。虽然 Flow-GRPO 有潜力扩展到视频生成,但视频场景面临更复杂的多目标奖励设计(物理真实性、时序一致性、平滑度等),目前缺乏实验验证。

Reward Design 依赖简单规则,高级奖励有待开发

当前奖励函数使用对象检测器、文字识别等规则信号。对于鼓励物理真实性或时序一致性等复杂语义,需要更先进的奖励模型,目前还是挑战。

视频生成的可扩展性问题

视频生成比 T2I 消耗的资源多得多,将 Flow-GRPO 在视频规模上应用需要更高效的数据收集与训练流水线,目前的工程挑战尚未被解决。

KL 正则虽有效,但代价是训练时间更长

作者指出:加入 KL 约束可以匹配无 KL 版本的最终高奖励,但需要更长的训练时间。此外,在某些提示词上仍会偶发 reward hacking(如人类偏好任务中视觉多样性的下降)。