机器人操作 · VLA · 2025

F₁: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

将视觉预见生成融入机器人动作决策,突破"被动反应"瓶颈
Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang  ·  Shanghai AI Laboratory & Harbin Institute of Technology (Shenzhen)

F₁ 提出将视觉前瞻生成(visual foresight generation)引入 VLA 决策框架,利用 Mixture-of-Transformer (MoT) 架构中的三类专家(understanding / generation / action)实现"预测引导的逆动力学动作生成"。在约 33 万条轨迹、136 个任务上预训练后,F₁ 在真实机器人任务和多个模拟基准上均大幅超越 π₀、gr00t-N1.5 等强基线。

4.2B 参数 330k 轨迹 · 136 任务 5 种机械臂本体 📄 arXiv:2509.06951 PDF
Vision-Language-Action Mixture-of-Transformer visual foresight inverse dynamics 机器人操作 策略学习 VQ-VAE flow matching

01 动机

现有 VLA 模型主要依赖"被动的状态到动作映射(reactive state-to-action mappings)",缺乏对时间演化的建模,在动态场景和长时序任务中表现脆弱。F₁ 提出将视觉前瞻生成引入决策循环,让模型在执行动作前先"想象"未来的视觉状态,从而生成更具前瞻性的动作序列。

"Existing approaches primarily rely on reactive state-to-action mappings, often leading to short-sighted behaviors and poor robustness in dynamic scenes."
范式对比图
Figure 1:"The comparison of varied paradigms for manipulation policies." 左:传统 state→action 的被动映射;右:F₁ 的预测引导逆动力学范式——先生成目标视觉状态,再由动作专家推导实际指令。
82.2%真实机器人任务平均成功率(vs. π₀ 65.2%)
95.7%LIBERO 平均成功率,全场景榜首
72.9%SimplerEnv Bridge 平均成功率
330k预训练轨迹数 · 136 任务 · 5 本体

02 方法

F₁ 采用 Mixture-of-Transformer (MoT) 架构,由三类专家协同工作:understanding expert 编码语言指令与当前观测,generation expert 预测未来视觉状态,action expert 基于多模态上下文生成动作序列。三者通过 UGA(Understanding→Generation→Action)progressive attention 串联,严格保证因果信息流,防止反向泄漏。

F₁ 框架总览
Figure 2:"Overview of F₁ framework. It employs the Mixture-of-Transformer (MoT) architecture comprising three core components: an understanding expert, a generation expert, and an action expert." 三类专家共享 Transformer backbone,通过路由机制和 UGA attention 实现有序信息融合。

视觉前瞻生成(Visual Foresight)

生成专家采用多尺度残差 VQ-VAE(Residual VQ-VAE)将未来帧分解为从 16×16 到 256×256 的离散 token 序列,再以自回归 next-scale prediction 逐步生成目标视觉状态。预测结果解码为"可视化未来观测",为动作专家提供前瞻性上下文。

预测引导的逆动力学(Predictive Inverse Dynamics)

动作专家接收当前观测、语言指令及生成专家产生的预测视觉状态,通过flow matching 预测连续动作序列。与直接 state→action 映射不同,此设计将目标状态显式纳入动作生成,使策略具备更长的时间视野。

Residual VQ-VAE 可视化
Figure 3:"Visualization of Residual VQ-VAE from 16×16 to 256×256 resolution." 从粗粒度到细粒度逐级重建目标图像,展示生成专家的多尺度预测能力。

三阶段训练方案(Three-Stage Training Recipe)

训练损失为两项之和:自回归 next-scale prediction loss(生成专家)+ flow matching action prediction loss(动作专家),以加权系数平衡。

03 实验

F₁ 在三个评测场景下与主流 VLA 基线(π₀、gr00t-N1/N1.5、π₀-Fast、OpenVLA、SpatialVLA 等)进行全面对比:真实机器人任务、LIBERO 模拟基准、SimplerEnv Bridge 基准。此外,在动态环境和长时序任务场景下额外验证鲁棒性。

真实机器人任务(Table 1)

Taskπ₀gr00t-N1gr00t-N1.5F₁ (Ours)
Pen66.7%46.7%73.3%93.3%
Flower66.7%33.3%40.0%80.0%
Chip86.7%33.3%46.6%100.0%
Tea (Table)86.7%40.0%73.5%93.3%
Tea (Shelf)73.3%13.3%26.6%86.7%
Bread66.7%33.3%53.3%66.7%
Handover33.3%26.7%60.0%80.0%
Handover R2H40.0%13.3%40.0%93.3%
Mixture66.7%33.3%66.7%66.7%
Average65.2%30.4%53.3%82.2%

LIBERO 基准(Table 2)

MethodSpatial SRObject SRGoal SRLong SRAverage SR
Diffusion Policy78.5%87.5%73.5%64.8%76.1%
OpenVLA84.7%88.4%79.2%53.7%76.5%
SpatialVLA88.2%89.9%78.6%55.5%78.1%
π₀98.0%96.8%94.4%88.4%94.4%
π₀-Fast96.4%96.8%88.6%60.2%85.5%
gr00t-N194.4%97.6%93.0%90.6%93.9%
CoT-VLA87.5%91.6%87.6%69.0%83.9%
F₁ (pretrained)98.2%97.8%95.4%91.3%95.7%
真实机器人实验场景
Figure 4:真实机器人实验场景——涵盖笔、花、薯片、茶杯、面包、传递等9类任务,以及 Handover Robot-to-Human 等复杂交互场景。F₁ 在 Handover R2H 上从 π₀ 的 40.0% 提升至 93.3%。

消融实验(Ablation Studies)

消融实验结果
Figure 5(消融):去除 generation expert 后成功率从 77.5% 骤降至 60.3%;冻结 generation expert(不参与 Stage II/III 训练)降至 73.8%;去除 Stage II 大规模预训练降约 3.3%。最优规划步长为 4 步。

视觉前瞻样本(Visual Foresight Examples)

生成的未来图像示例
Figure 6:F₁ generation expert 生成的未来观测图像示例。尽管像素级精度(image token accuracy ≈ 40–45%)有限,但生成图像已足够引导动作专家完成任务进度跟踪,且动作 token 准确率与图像 token 准确率存在显著正相关。

04 局限性

说明:以下局限性均为论文作者在 limitations 章节中明确陈述。
生成专家对细粒度物体细节处理不足

由于缺乏大规模生成数据集的预训练,generation expert 在网格纹理、可形变物体等精细视觉结构上表现欠佳,生成图像的视觉保真度有限(image token accuracy 约 40–45%)。尽管如此,这一精度水平已足以为动作决策提供有效的任务级引导。

可形变物体(deformable objects)建模能力弱

论文明确指出 generation expert 在处理可形变物体时存在困难,这与预训练数据分布及 VQ-VAE 离散化方案的局限有关。

视觉像素级精度与任务成功率脱耦

实验表明图像 token 准确率(~40–45%)并非关键瓶颈,任务完成率与之正相关但并不严格依赖像素级还原,说明模型实际上学习的是语义级的任务进度引导,而非精确的像素预测。这一设计选择可能限制对需要高视觉精度操作任务的适用性(作者推断)。