CoRL 2025 · 机器人学习

FLOWER

Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov  ·  Karlsruhe Institute of Technology & Microsoft Research

FLOWER 通过两项核心创新——中间模态融合(Intermediate-Modality Fusion)Global-AdaLN 条件化——构建了一个仅需 200 H100 GPU 小时即可预训练的 950M 参数 VLA 模型,在 190 项仿真与真实世界任务中达到最新最优性能,同时大幅降低显存占用与推理延迟。

950M 参数 200 H100 GPU 小时预训练 CoRL 2025 📄 arXiv:2509.04996 PDF
Vision-Language-Action flow matching intermediate-modality fusion Global-AdaLN 机器人操作 CALVIN LIBERO 泛化策略学习 高效预训练

01 动机

大型视觉-语言-动作(VLA)模型在通用机器人策略学习中潜力巨大,但现有方法面临两大核心瓶颈:训练成本极高(往往需要数千 GPU 小时)以及推理效率低下(高显存占用、低频率输出),严重限制了其在真实场景与低资源环境中的落地。

"We present FLOWER, an efficient VLA flow policy capable of pretraining a 950M parameter model in only 200 H100 GPU hours, while achieving competitive performance across 190 tasks spanning simulation and real-world benchmarks."
FLOWER 效率与性能对比
FLOWER 的三大优势:相比现有 VLA 基线,显著降低 GPU 显存占用、减少计算量,同时在多基准任务上保持更强性能。图中纵轴越低越好(资源消耗),右侧柱状图越高越好(任务成功率)。
4.53CALVIN ABC→D 平均序列长度(最优)
200 hH100 GPU 预训练时长
311 HzRTX 4090 推理吞吐量
1848 MB推理所需显存

现有方法的痛点主要体现在两个层面:

FLOWER 通过截断预训练 VLM 的中间层特征(而非使用完整输出),在减少 20–35% 参数量的同时保留关键的跨模态语义信息,从而实现了训练效率与策略性能的双赢。

02 方法

FLOWER 的整体框架由三个模块组成:视觉-语言编码器(VLM)提供多模态上下文表示;Flow Transformer 通过 cross-attention 接收 VLM 的中间层特征并执行 flow matching 动作解码;Global-AdaLN 以高效的参数共享方式为每层提供动作空间特定的调制信号。

FLOWER 架构图
FLOWER 整体架构:VLM(以 Florence-2 为例)处理图像与语言输入,其中间层嵌入通过 cross-attention 注入 Flow Transformer。Flow Transformer 接收噪声动作序列,经过去噪后输出目标动作。关键在于 VLM 仅使用前 50–70% 的层,大幅削减参数量与计算量。

中间模态融合(Intermediate-Modality Fusion)

传统 VLA 模型通常使用 VLM 的最终层输出(晚期融合)或将图像 token 直接插入 LLM 输入(早期融合)。FLOWER 则采用"中间截断"策略:对于编码器-解码器结构(如 Florence-2),移除整个解码器(减少 50% 参数);对于仅解码器结构(如 LLaMA),丢弃最后 30% 的层(减少 20–35% 参数)。截断后的中间层特征通过 cross-attention 传入 Flow Transformer。

"The intermediate representation prunes between 30% and 50% of pretrained VLM layers, yielding a 20–35% parameter reduction while preserving rich cross-modal semantics."

消融实验证明,中间融合相比早期融合提升 61 个百分点(LIBERO-Long:93.4% vs 33.4%),相比晚期融合提升 21 个百分点,优势显著。

Global-AdaLN 条件化

Global-AdaLN vs 标准 DiT blocks
左:标准 DiT block 的 AdaLN-Zero 为每层独立分配调制权重,参数冗余。右:FLOWER 的 Global-AdaLN 在所有层间共享一组调制权重,再通过轻量级 LoRA 适配器为每层生成独特调制信号,兼顾效率与层级特异性。

标准的 AdaLN-Zero 为 Diffusion Transformer 的每一层分配独立的调制参数,随层数增多参数量线性增长。Global-AdaLN 则将调制权重全局共享:

Flow Matching 动作解码

FLOWER 的动作解码头基于 flow matching 框架(而非 DDPM 扩散过程),通过学习从噪声分布到动作分布的连续 ODE 流实现动作生成。Flow Transformer 接收带噪声的动作序列作为输入,以 VLM 中间层嵌入为条件,经去噪后输出机器人动作序列。该框架支持灵活的采样步数,在推理时可以更少步数获得高质量动作,从而实现 311.04 Hz 的高频推理(RTX 4090)。

03 实验

FLOWER 在 10 个基准上进行了系统评测,涵盖仿真(CALVIN、LIBERO、SIMPLER、Aloha)和真实世界(厨房操作)任务,共 190 项任务。对比基线包括 OpenVLA、π0、Octo、Seer、VPP 等代表性 VLA 模型。

CALVIN ABC→D 基准

方法平均序列长度(满分5.0)
OpenVLA3.27
Seer4.28
VPP4.29
π04.01±0.04
FLOWER(本文)4.53±0.04

LIBERO 多任务基准

任务OctoOpenVLAπ0FLOWER
Spatial78.9±1.0%84.7±0.9%96.8%97.5±0.8%
Object85.7±0.9%88.4±0.8%98.8%99.1±0.4%
Goal84.6±0.9%79.2±1.0%95.8%96.1±0.6%
Long51.1±1.3%53.7±1.3%85.2%94.9±1.2%

真实世界厨房实验

真实厨房实验结果与泛化测试
真实厨房操作任务(共 5 项)成功率对比,以及四种泛化场景(新物体、闪光灯光照、背景干扰物、新任务组合)下的性能。FLOWER 在所有条件下均显著优于 OpenVLA 基线。
场景OpenVLAFLOWER
厨房平均(5 任务)31%61%
新物体泛化10%33.3%
闪光灯光照25%50%
背景干扰物41.7%69.5%
新任务组合16.7%51.1%
泛化场景平均23.4%51.0%

推理效率对比(RTX 4090)

各基线仿真结果对比
多仿真基准上 FLOWER 与主流 VLA 基线的成功率对比,涵盖 CALVIN、LIBERO、SIMPLER 及 Aloha 任务集。
模型吞吐量 (Hz)延迟 (s)显存 (MB)
OpenVLA6.090.16414,574
Diffusion Policy130.670.341517
π0288.110.1046,692
FLOWER311.040.0521,848

FLOWER 推理速度比 π0 快 8%,比 OpenVLA 快 5,007%;显存仅为 π0 的 27.6%,OpenVLA 的 12.7%。

消融实验

关键消融结果(CALVIN ABC 与 LIBERO-Long 双任务):

04 局限性

Note: 以下局限性均由作者在论文中明确陈述(stated)。
迭代采样速度慢于确定性策略

"It relies on an iterative sampling procedure, which is inherently slower than a single forward pass from deterministic policies."——基于 flow matching 的多步去噪推理,在步数较多时仍慢于单步确定性策略(如 ACT)。

仅验证了三种操作动作空间

"We have validated FLOWER primarily on three manipulation action spaces; its ability to generalize to other embodiments, such as mobile navigation or humanoid locomotion, remains unexplored and is an important direction for future work."——尚未在移动导航或人形机器人场景下验证。

在 SIMPLER Google Robot 基准上有待提升

"Pretraining performance for zero-shot deployment on the SIMPLER Google Robot benchmark indicates that further improvements are needed. We hypothesize that the generalization tested in SIMPLER benefits from larger models."——在 Google Robot 设置下(31.9%)低于 RT-1-X(42.4%),作者推测更大模型有助于改善。

约 1B 参数对低资源场景仍有挑战

"Although FLOWER is considerably smaller than most state-of-the-art VLA models, its ≈1 B-parameter size may still present deployment challenges in low-resource or real-time settings."

8/10 基准在仿真环境中进行

"Eight out of our ten used benchmarks are conducted in simulation, limiting the extent to which our results can be taken as evidence of real-world generalization."——真实世界结果相对有限,泛化结论需谨慎外推。