FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

01 动机

大型视觉-语言-动作（VLA）模型在通用机器人策略学习中潜力巨大，但现有方法面临两大核心瓶颈：训练成本极高（往往需要数千 GPU 小时）以及推理效率低下（高显存占用、低频率输出），严重限制了其在真实场景与低资源环境中的落地。

"We present FLOWER, an efficient VLA flow policy capable of pretraining a 950M parameter model in only 200 H100 GPU hours, while achieving competitive performance across 190 tasks spanning simulation and real-world benchmarks."

FLOWER 效率与性能对比 — FLOWER 的三大优势：相比现有 VLA 基线，显著降低 GPU 显存占用、减少计算量，同时在多基准任务上保持更强性能。图中纵轴越低越好（资源消耗），右侧柱状图越高越好（任务成功率）。

4.53CALVIN ABC→D 平均序列长度（最优）

200 hH100 GPU 预训练时长

311 HzRTX 4090 推理吞吐量

1848 MB推理所需显存

现有方法的痛点主要体现在两个层面：

早期融合（Early Fusion）：将视觉 token 直接拼接进 LLM，导致序列长度激增，计算开销随之大幅上升。
晚期融合（Late Fusion）：虽然计算高效，但跨模态的语义对齐较弱，任务成功率受限。

FLOWER 通过截断预训练 VLM 的中间层特征（而非使用完整输出），在减少 20–35% 参数量的同时保留关键的跨模态语义信息，从而实现了训练效率与策略性能的双赢。

02 方法

FLOWER 的整体框架由三个模块组成：视觉-语言编码器（VLM）提供多模态上下文表示；Flow Transformer 通过 cross-attention 接收 VLM 的中间层特征并执行 flow matching 动作解码；Global-AdaLN 以高效的参数共享方式为每层提供动作空间特定的调制信号。

FLOWER 架构图 — FLOWER 整体架构：VLM（以 Florence-2 为例）处理图像与语言输入，其中间层嵌入通过 cross-attention 注入 Flow Transformer。Flow Transformer 接收噪声动作序列，经过去噪后输出目标动作。关键在于 VLM 仅使用前 50–70% 的层，大幅削减参数量与计算量。

中间模态融合（Intermediate-Modality Fusion）

传统 VLA 模型通常使用 VLM 的最终层输出（晚期融合）或将图像 token 直接插入 LLM 输入（早期融合）。FLOWER 则采用"中间截断"策略：对于编码器-解码器结构（如 Florence-2），移除整个解码器（减少 50% 参数）；对于仅解码器结构（如 LLaMA），丢弃最后 30% 的层（减少 20–35% 参数）。截断后的中间层特征通过 cross-attention 传入 Flow Transformer。

"The intermediate representation prunes between 30% and 50% of pretrained VLM layers, yielding a 20–35% parameter reduction while preserving rich cross-modal semantics."

消融实验证明，中间融合相比早期融合提升 61 个百分点（LIBERO-Long：93.4% vs 33.4%），相比晚期融合提升 21 个百分点，优势显著。

Global-AdaLN 条件化

Global-AdaLN vs 标准 DiT blocks — 左：标准 DiT block 的 AdaLN-Zero 为每层独立分配调制权重，参数冗余。右：FLOWER 的 Global-AdaLN 在所有层间**共享一组调制权重**，再通过轻量级 LoRA 适配器为每层生成独特调制信号，兼顾效率与层级特异性。

标准的 AdaLN-Zero 为 Diffusion Transformer 的每一层分配独立的调制参数，随层数增多参数量线性增长。Global-AdaLN 则将调制权重全局共享：

一个共享的调制网络生成全局调制向量；
每层附加一个轻量级 LoRA 适配器，在全局信号基础上引入层特异性偏移；
相比 naive AdaLN-Zero，参数量减少 20% 以上，同时保留对不同动作空间统计特性的适应能力。

Flow Matching 动作解码

FLOWER 的动作解码头基于 flow matching 框架（而非 DDPM 扩散过程），通过学习从噪声分布到动作分布的连续 ODE 流实现动作生成。Flow Transformer 接收带噪声的动作序列作为输入，以 VLM 中间层嵌入为条件，经去噪后输出机器人动作序列。该框架支持灵活的采样步数，在推理时可以更少步数获得高质量动作，从而实现 311.04 Hz 的高频推理（RTX 4090）。

03 实验

FLOWER 在 10 个基准上进行了系统评测，涵盖仿真（CALVIN、LIBERO、SIMPLER、Aloha）和真实世界（厨房操作）任务，共 190 项任务。对比基线包括 OpenVLA、π0、Octo、Seer、VPP 等代表性 VLA 模型。

CALVIN ABC→D 基准

方法	平均序列长度（满分5.0）
OpenVLA	3.27
Seer	4.28
VPP	4.29
π0	4.01±0.04
FLOWER（本文）	4.53±0.04

LIBERO 多任务基准

任务	Octo	OpenVLA	π0	FLOWER
Spatial	78.9±1.0%	84.7±0.9%	96.8%	97.5±0.8%
Object	85.7±0.9%	88.4±0.8%	98.8%	99.1±0.4%
Goal	84.6±0.9%	79.2±1.0%	95.8%	96.1±0.6%
Long	51.1±1.3%	53.7±1.3%	85.2%	94.9±1.2%

真实世界厨房实验

真实厨房实验结果与泛化测试 — 真实厨房操作任务（共 5 项）成功率对比，以及四种泛化场景（新物体、闪光灯光照、背景干扰物、新任务组合）下的性能。FLOWER 在所有条件下均显著优于 OpenVLA 基线。

场景	OpenVLA	FLOWER
厨房平均（5 任务）	31%	61%
新物体泛化	10%	33.3%
闪光灯光照	25%	50%
背景干扰物	41.7%	69.5%
新任务组合	16.7%	51.1%
泛化场景平均	23.4%	51.0%

推理效率对比（RTX 4090）

各基线仿真结果对比 — 多仿真基准上 FLOWER 与主流 VLA 基线的成功率对比，涵盖 CALVIN、LIBERO、SIMPLER 及 Aloha 任务集。

模型	吞吐量 (Hz)	延迟 (s)	显存 (MB)
OpenVLA	6.09	0.164	14,574
Diffusion Policy	130.67	0.341	517
π0	288.11	0.104	6,692
FLOWER	311.04	0.052	1,848

FLOWER 推理速度比 π0 快 8%，比 OpenVLA 快 5,007%；显存仅为 π0 的 27.6%，OpenVLA 的 12.7%。

消融实验

关键消融结果（CALVIN ABC 与 LIBERO-Long 双任务）：

融合策略：早期融合 57.1% / 33.4%；晚期融合 71.2% / 61.8%；中间融合（本文）89.5% / 93.4%——中间融合比早期融合高出 61 百分点。
层剪枝比例：保留完整 VLM（不剪枝）66.3%；剪枝 30%（最优）72.1%；剪枝 50% 66.4%。
Global-AdaLN：相比 naive AdaLN-Zero 参数量减少 20% 以上，同时保持任务成功率不下降。

04 局限性

Note: 以下局限性均由作者在论文中明确陈述（stated）。

迭代采样速度慢于确定性策略

"It relies on an iterative sampling procedure, which is inherently slower than a single forward pass from deterministic policies."——基于 flow matching 的多步去噪推理，在步数较多时仍慢于单步确定性策略（如 ACT）。

仅验证了三种操作动作空间

"We have validated FLOWER primarily on three manipulation action spaces; its ability to generalize to other embodiments, such as mobile navigation or humanoid locomotion, remains unexplored and is an important direction for future work."——尚未在移动导航或人形机器人场景下验证。

在 SIMPLER Google Robot 基准上有待提升

"Pretraining performance for zero-shot deployment on the SIMPLER Google Robot benchmark indicates that further improvements are needed. We hypothesize that the generalization tested in SIMPLER benefits from larger models."——在 Google Robot 设置下（31.9%）低于 RT-1-X（42.4%），作者推测更大模型有助于改善。

约 1B 参数对低资源场景仍有挑战

"Although FLOWER is considerably smaller than most state-of-the-art VLA models, its ≈1 B-parameter size may still present deployment challenges in low-resource or real-time settings."

8/10 基准在仿真环境中进行

"Eight out of our ten used benchmarks are conducted in simulation, limiting the extent to which our results can be taken as evidence of real-world generalization."——真实世界结果相对有限，泛化结论需谨慎外推。