FlowVLA: Visual Chain of Thought-based Motion Reasoning for Vision-Language-Action Models

01 动机 Motivation

当前主流 VLA 模型依赖基于"next-frame prediction"训练的世界模型，试图直接预测未来帧的外观，而不显式建模底层的运动动态。这导致两个核心问题：预测在物理上不合理（物体凭空消失、机械臂轨迹混乱），且预训练目标与下游动作生成之间存在明显的领域鸿沟。

"This approach attempts to predict future frame appearance without explicitly reasoning about underlying dynamics, leading to physically implausible visual forecasts and inefficient policy learning."

**图 1：FlowVLA 两阶段训练范式。**Stage 1（世界模型预训练）：模型学习生成交错的运动 token（光流）和未来外观 token（下一帧）序列；Stage 2（策略微调）：在冻结或更新的世界模型基础上，继续训练动作预测头，损失仅计算在 action token 上。

88.1%LIBERO 平均成功率（vs. UniVLA 84.0%）

74.0%SimplerEnv 平均成功率（vs. UniVLA 65.6%）

44.0%真实机器人平均成功率（vs. UniVLA 31.0%）

+55%低数据场景下相对基线的成功率提升

传统世界模型陷入"pixel-copying trap"：模型只是复制静态背景而非理解时空动态，导致"blurry, inconsistent, and physically implausible long-horizon forecasts"。FlowVLA 通过在帧预测前插入光流预测步骤，强迫模型先理解"场景如何运动"，再推断"场景将呈现什么样子"。

02 方法 Method

FlowVLA 将世界模型的预测目标从 P(v_t+1|v_t, L) 重新表述为 P(v_t+1, f_t|v_t, L)，分解为两步：先由当前帧和语言指令预测光流（Motion Reasoning），再由光流和当前帧预测未来帧（Appearance Generation）。整个系统采用统一的 autoregressive Transformer，共享同一个 VQ-GAN tokenizer 处理 RGB 帧和光流场。

**图 2：FlowVLA 模型架构。**RGB 帧和光流场使用同一个 VQ-GAN tokenizer 离散化为 token 序列，送入 autoregressive Transformer 进行联合建模。图中分开画出的 Image Tokenizer 和 Flow Tokenizer"in practice, they are the exact same module applied to both appearance and motion inputs"。

Visual Chain of Thought（视觉思维链）

FlowVLA 的核心创新是将预测序列从 v_t → v_t+1 扩展为 v_t → f_t → v_t+1，其中 f_t 是 t 时刻的光流场。世界模型预训练的完整序列为：

S_wm = {L_instr, v₀, f₀, v₁, f₁, …, v_T, f_T}

训练目标为：
L_WM = Σ [L_CE(f_t | S_{<v_t+1}) + λ · L_CE(v_t+1 | S_{<v_t+1}, f_t)]
第一项约束模型正确预测运动动态，第二项约束在运动条件下生成合理的未来外观。

统一光流 Tokenization

光流场通过 VideoJAM 技术转换为 3 通道 RGB 表示，再经过非线性归一化处理：

m_norm = min(1.0, m / (σ · √(H² + W²)))，其中 σ = 0.15

归一化后的光流 RGB 与原始 RGB 帧使用完全相同的 VQ-GAN tokenizer 离散化。这种设计避免了为光流单独训练编码器的额外开销，同时允许模型在统一的 token 空间内对运动和外观进行联合建模。

两阶段训练流程

Stage 1：世界模型预训练

在大规模视频数据上，以交错序列格式预训练 autoregressive Transformer，同时学习光流预测和下一帧预测。预训练使模型具备物理合理的视觉预测能力。

Stage 2：策略微调

在机器人操作数据集上微调，动作 token 被附加到序列末尾，损失"only over the action tokens"。世界模型预训练的视觉表征为策略学习提供了良好初始化。

03 实验 Experiments

在三个层次的基准上评估：LIBERO（仿真，4 个 task suite）、SimplerEnv（仿真，视觉域迁移鲁棒性）、AgileX Cobot 双臂真实机器人（4 个操作任务）。主要对比基线为 UniVLA 和 WorldVLA。

LIBERO 仿真基准（Table 1）

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	平均
WorldVLA	92.3	93.0	83.3	47.9	79.1
UniVLA	93.1	96.9	91.0	63.0	84.0
FlowVLA	95.1	97.2	87.5	72.6	88.1

FlowVLA 在平均成功率上超过 UniVLA 4.1 个百分点，在长时序任务（LIBERO-Long）上的提升最为显著（72.6% vs. 63.0%），体现了运动推理对长视野规划的重要性。

SimplerEnv 仿真基准（Table 2）

方法	Pick Coke Can	Move Near	Stack Block	平均
UniVLA	85.3	70.0	41.6	65.6
FlowVLA	83.0	76.5	62.5	74.0

SimplerEnv 考察视觉域迁移鲁棒性。FlowVLA 在需要精细空间推理的"Stack Block"任务上相对 UniVLA 提升 20.9 个百分点（62.5% vs. 41.6%）。

真实机器人实验（Table 3）

方法	Pick & Place	Grasp & Toss	Handover	Place Vegetable	平均
UniVLA	25.0	40.0	19.0	40.0	31.0
FlowVLA	30.0	50.0	36.0	60.0	44.0

真实机器人实验平台 — **图 3：AgileX Cobot 双臂实验平台及四项操作任务。**包含单臂和双臂协作任务，覆盖抓取、放置、传递等典型操作场景。

视觉预测质量分析

**图 4：物理合理性对比。**基线（无光流中间步骤）出现"disappearing manipulator or erratic object behavior"等失败模式；FlowVLA 生成"stable and physically coherent predictions"。

**图 5：语义对齐分析。**基线模型在给定语言指令时无法将预测与指令对齐；FlowVLA"correctly interprets the command"，预测结果与语言指令保持一致。

样本效率与收敛速度（Figure 6）

训练收敛曲线 — **图 6：收敛速度对比。**使用全量数据时，FlowVLA 在约 2k 步即可达到基线 6k 步的性能峰值；在 50% 数据的低资源场景下，FlowVLA 峰值成功率为 0.48，比基线的 0.31 高出 55%。

消融实验（Table 4）

配置	成功率 (%)
完整 FlowVLA	73.0
移除 CoT（无光流预测步骤）	64.0
移除 flow loss（光流无监督）	69.5
使用 grouped sequence（非 interleaved）	49.4

三项组件缺一不可：Visual CoT 结构（+9.0 pp）、直接光流损失监督（+3.5 pp）、以及交错序列格式（vs. 分组格式 +23.6 pp）均对最终性能有显著贡献。交错格式的大幅优势表明，将运动 token 与外观 token 紧密交织对于捕获时序依赖至关重要。

04 局限性 Limitations

Note: 论文未单独设置 Limitations 章节。以下各点：前两项为从论文设计与实验中推断（inferred）的局限，第三项为作者在正文中明确提及（stated）的局限。

光流质量的上限依赖（inferred）

FlowVLA 的视觉思维链依赖光流预测的准确性作为中间步骤。若场景中存在快速运动、遮挡或纹理稀疏区域，光流估计本身可能失准，进而传递误差到未来帧预测和动作生成。论文未讨论光流预测失败时的 fallback 策略。

序列长度与计算开销（inferred）

插入光流 token 将预训练序列长度约翻倍（S_wm 同时包含 f_t 和 v_t+1），增加了预训练阶段的计算开销。论文未提供与基线的 FLOPs 或推理延迟对比数据，在实时机器人控制场景中的延迟影响尚不明确。

真实机器人评测规模有限（stated）

真实机器人实验（Table 3）仅在 AgileX Cobot 双臂平台上进行 4 项任务评测，每项任务仅报告单一成功率数值，缺乏跨平台、跨机器人形态的泛化性验证。作者承认这是当前工作的局限，并将更大规模的真实世界评测作为未来工作方向。