机器人操作 · VLA · 世界模型

FlowVLA

Visual Chain of Thought-based Motion Reasoning for Vision-Language-Action Models
Zhide Zhong, Haodong Yan, Junfeng Li, Xiangchen Liu, Xin Gong, Tianran Zhang, Wenxuan Song, Jiayi Chen, Xinhu Zheng, Hesheng Wang, Haoang Li

FlowVLA 提出"视觉思维链(Visual Chain of Thought)"范式:在预测未来帧外观之前,先显式推断光流(运动动态)。与直接预测下一帧的传统 VLA 世界模型相比,FlowVLA 生成的视觉预测更符合物理规律,同时在多个机器人操作基准上取得最优策略性能,并在数据效率上显著优于基线。

arXiv 2025 AgileX Cobot 双臂平台 LIBERO · SimplerEnv · 真实机器人 📄 arXiv:2508.18269 🌐 Project Page
VLA optical flow visual chain-of-thought world model 机器人操作 autoregressive transformer motion reasoning sample efficiency 策略学习 视觉语言动作模型

01 动机 Motivation

当前主流 VLA 模型依赖基于"next-frame prediction"训练的世界模型,试图直接预测未来帧的外观,而不显式建模底层的运动动态。这导致两个核心问题:预测在物理上不合理(物体凭空消失、机械臂轨迹混乱),且预训练目标与下游动作生成之间存在明显的领域鸿沟。

"This approach attempts to predict future frame appearance without explicitly reasoning about underlying dynamics, leading to physically implausible visual forecasts and inefficient policy learning."
FlowVLA 两阶段训练范式
图 1:FlowVLA 两阶段训练范式。Stage 1(世界模型预训练):模型学习生成交错的运动 token(光流)和未来外观 token(下一帧)序列;Stage 2(策略微调):在冻结或更新的世界模型基础上,继续训练动作预测头,损失仅计算在 action token 上。
88.1%LIBERO 平均成功率(vs. UniVLA 84.0%)
74.0%SimplerEnv 平均成功率(vs. UniVLA 65.6%)
44.0%真实机器人平均成功率(vs. UniVLA 31.0%)
+55%低数据场景下相对基线的成功率提升

传统世界模型陷入"pixel-copying trap":模型只是复制静态背景而非理解时空动态,导致"blurry, inconsistent, and physically implausible long-horizon forecasts"。FlowVLA 通过在帧预测前插入光流预测步骤,强迫模型先理解"场景如何运动",再推断"场景将呈现什么样子"。

02 方法 Method

FlowVLA 将世界模型的预测目标从 P(vt+1|vt, L) 重新表述为 P(vt+1, ft|vt, L),分解为两步:先由当前帧和语言指令预测光流(Motion Reasoning),再由光流和当前帧预测未来帧(Appearance Generation)。整个系统采用统一的 autoregressive Transformer,共享同一个 VQ-GAN tokenizer 处理 RGB 帧和光流场。

FlowVLA 模型架构
图 2:FlowVLA 模型架构。RGB 帧和光流场使用同一个 VQ-GAN tokenizer 离散化为 token 序列,送入 autoregressive Transformer 进行联合建模。图中分开画出的 Image Tokenizer 和 Flow Tokenizer"in practice, they are the exact same module applied to both appearance and motion inputs"。

Visual Chain of Thought(视觉思维链)

FlowVLA 的核心创新是将预测序列从 vt → vt+1 扩展为 vt → ft → vt+1,其中 ft 是 t 时刻的光流场。世界模型预训练的完整序列为:

Swm = {Linstr, v0, f0, v1, f1, …, vT, fT}

训练目标为:
LWM = Σ [LCE(ft | S<vt+1) + λ · LCE(vt+1 | S<vt+1, ft)]
第一项约束模型正确预测运动动态,第二项约束在运动条件下生成合理的未来外观。

统一光流 Tokenization

光流场通过 VideoJAM 技术转换为 3 通道 RGB 表示,再经过非线性归一化处理:

mnorm = min(1.0, m / (σ · √(H² + W²))),其中 σ = 0.15

归一化后的光流 RGB 与原始 RGB 帧使用完全相同的 VQ-GAN tokenizer 离散化。这种设计避免了为光流单独训练编码器的额外开销,同时允许模型在统一的 token 空间内对运动和外观进行联合建模。

两阶段训练流程

Stage 1:世界模型预训练

在大规模视频数据上,以交错序列格式预训练 autoregressive Transformer,同时学习光流预测和下一帧预测。预训练使模型具备物理合理的视觉预测能力。

Stage 2:策略微调

在机器人操作数据集上微调,动作 token 被附加到序列末尾,损失"only over the action tokens"。世界模型预训练的视觉表征为策略学习提供了良好初始化。

03 实验 Experiments

在三个层次的基准上评估:LIBERO(仿真,4 个 task suite)、SimplerEnv(仿真,视觉域迁移鲁棒性)、AgileX Cobot 双臂真实机器人(4 个操作任务)。主要对比基线为 UniVLA 和 WorldVLA。

LIBERO 仿真基准(Table 1)

方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
WorldVLA92.393.083.347.979.1
UniVLA93.196.991.063.084.0
FlowVLA95.197.287.572.688.1

FlowVLA 在平均成功率上超过 UniVLA 4.1 个百分点,在长时序任务(LIBERO-Long)上的提升最为显著(72.6% vs. 63.0%),体现了运动推理对长视野规划的重要性。

SimplerEnv 仿真基准(Table 2)

方法Pick Coke CanMove NearStack Block平均
UniVLA85.370.041.665.6
FlowVLA83.076.562.574.0

SimplerEnv 考察视觉域迁移鲁棒性。FlowVLA 在需要精细空间推理的"Stack Block"任务上相对 UniVLA 提升 20.9 个百分点(62.5% vs. 41.6%)。

真实机器人实验(Table 3)

方法Pick & PlaceGrasp & TossHandoverPlace Vegetable平均
UniVLA25.040.019.040.031.0
FlowVLA30.050.036.060.044.0
真实机器人实验平台
图 3:AgileX Cobot 双臂实验平台及四项操作任务。包含单臂和双臂协作任务,覆盖抓取、放置、传递等典型操作场景。

视觉预测质量分析

物理合理性对比
图 4:物理合理性对比。基线(无光流中间步骤)出现"disappearing manipulator or erratic object behavior"等失败模式;FlowVLA 生成"stable and physically coherent predictions"。
语义对齐分析
图 5:语义对齐分析。基线模型在给定语言指令时无法将预测与指令对齐;FlowVLA"correctly interprets the command",预测结果与语言指令保持一致。

样本效率与收敛速度(Figure 6)

训练收敛曲线
图 6:收敛速度对比。使用全量数据时,FlowVLA 在约 2k 步即可达到基线 6k 步的性能峰值;在 50% 数据的低资源场景下,FlowVLA 峰值成功率为 0.48,比基线的 0.31 高出 55%。

消融实验(Table 4)

配置成功率 (%)
完整 FlowVLA73.0
移除 CoT(无光流预测步骤)64.0
移除 flow loss(光流无监督)69.5
使用 grouped sequence(非 interleaved)49.4

三项组件缺一不可:Visual CoT 结构(+9.0 pp)、直接光流损失监督(+3.5 pp)、以及交错序列格式(vs. 分组格式 +23.6 pp)均对最终性能有显著贡献。交错格式的大幅优势表明,将运动 token 与外观 token 紧密交织对于捕获时序依赖至关重要。

04 局限性 Limitations

Note: 论文未单独设置 Limitations 章节。以下各点:前两项为从论文设计与实验中推断(inferred)的局限,第三项为作者在正文中明确提及(stated)的局限。
光流质量的上限依赖(inferred)

FlowVLA 的视觉思维链依赖光流预测的准确性作为中间步骤。若场景中存在快速运动、遮挡或纹理稀疏区域,光流估计本身可能失准,进而传递误差到未来帧预测和动作生成。论文未讨论光流预测失败时的 fallback 策略。

序列长度与计算开销(inferred)

插入光流 token 将预训练序列长度约翻倍(Swm 同时包含 ft 和 vt+1),增加了预训练阶段的计算开销。论文未提供与基线的 FLOPs 或推理延迟对比数据,在实时机器人控制场景中的延迟影响尚不明确。

真实机器人评测规模有限(stated)

真实机器人实验(Table 3)仅在 AgileX Cobot 双臂平台上进行 4 项任务评测,每项任务仅报告单一成功率数值,缺乏跨平台、跨机器人形态的泛化性验证。作者承认这是当前工作的局限,并将更大规模的真实世界评测作为未来工作方向。