RSS 2025 · 机器人学习

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

OpenVLA-OFT:让 VLA 微调又快又准的系统性配方
Moo Jin Kim, Chelsea Finn, Percy Liang  ·  Stanford University

本文系统研究如何将视觉-语言-动作模型(VLA)高效迁移至新型机器人场景。作者提出 Optimized Fine-Tuning (OFT) 配方,将并行解码、动作分块、连续动作表示与 L1 回归四项关键改进融为一体,使 OpenVLA-OFT 在 LIBERO 仿真基准上达到 97.1% 平均成功率(相较于基线 OpenVLA 的 76.5%),推理吞吐量提升 26×,并在双臂 ALOHA 实体机器人上超越 π₀、RDT-1B 等强基线达 15%(absolute)。

RSS 2025Robotics · VLA Fine-TuningarXiv 2025-02 📄 arXiv:2502.19645 Project Page
VLA fine-tuning parallel decoding action chunking continuous actions L1 regression FiLM language grounding bimanual manipulation ALOHA LIBERO 机器人操作

01 动机

VLA 模型(如 OpenVLA)将大规模视觉-语言预训练引入机器人操作,但直接迁移到新场景时面临两大瓶颈:推理速度太慢(自回归逐 token 解码)和成功率不足(离散动作表示精度受限)。已有工作倾向于重新设计预训练,而本文聚焦微调阶段,寻找一套通用、高效的系统性配方。

"We investigate optimized fine-tuning (OFT) — a recipe for adapting VLAs to novel robot setups, integrating parallel decoding, action chunking, continuous action representations, and L1 regression."
OpenVLA-OFT teaser
图 1:OpenVLA-OFT 在双臂 ALOHA 机器人上执行折叠衣物、舀取食材、放置物品等高灵巧度任务。相比基线 OpenVLA,吞吐量提升 43×,并在所有任务上超越 π₀ 与 RDT-1B 等同类 VLA 方法。
97.1%LIBERO 平均成功率(最高输入配置)
26×相较于基线 OpenVLA 的吞吐量提升(仿真)
+15%真实机器人绝对成功率提升(vs. π₀、RDT-1B)
43×ALOHA 机器人吞吐量提升(K=25 动作分块)

02 方法

OFT 配方由四个相互协同的改进组成:以并行解码(parallel decoding)替代自回归逐步生成,以动作分块(action chunking)同时预测多步动作,以连续动作表示(continuous action representation)取代 256-bin 离散 tokenization,并采用 L1 回归作为训练目标。针对多视角真实机器人场景,还引入 FiLM 语言调制增强语言接地能力。

设计选择对比:自回归 vs 并行解码,离散 vs 连续动作
论文图 2(从 PDF 第 2 页提取):对比自回归解码(Autoregressive Decoding)与并行解码(Parallel Decoding),以及离散动作表示(Discrete)与连续动作表示(Continuous)的差异。并行解码通过双向 attention 在单次前向传播中生成所有动作,显著降低延迟。

1 · Parallel Decoding & Action Chunking

标准自回归 VLA 逐 token 顺序生成动作,每步推理都要等待前一步完成。并行解码将语言模型最后的 causal attention 替换为双向 attention,以空的动作嵌入作为输入,在单次前向传播中同时预测所有动作 token,消除自回归的串行依赖。动作分块则进一步将每次生成的动作步数扩展到 K 步(仿真 K=8,真实机器人 K=25),既减少调用次数,又通过时序建模提升任务成功率。两者结合带来约 4× 延迟下降14%(absolute)成功率提升

2 · Continuous Actions + L1 Regression

原始 OpenVLA 将连续动作离散化为 256 个 bin,以 next-token prediction 方式训练,精度受量化误差限制。本文改用一个轻量 MLP action head 直接输出连续动作值,并以 L1 regression(mean absolute error) 为目标函数。L1 相比扩散目标收敛更快、推理无需迭代采样,同时保持与 Diffusion Policy 相当的任务质量。消融实验显示,Continuous + L1 与 Continuous + Diffusion 性能相近(95.3% vs. 95.4%),但推理更快。

3 · FiLM 语言调制(真实机器人)

在 LIBERO 仿真中,无 FiLM 也能实现良好的语言接地;但在 ALOHA 双臂机器人(多视角摄像头 + 更复杂任务)上,不加 FiLM 语言接地能力明显下降。Feature-wise Linear Modulation (FiLM) 将语言嵌入通过学习的仿射变换(scaling + shift)注入 Vision Transformer 各层,调制视觉特征,使模型能更有效区分"折叠短裤"与"折叠长袖衬衫"等语义差异任务。

FiLM 语言调制机制
图 8:FiLM 在 Vision Transformer 中的实现示意。任务语言嵌入经 MLP 生成 scale 与 shift 参数,直接调制各 ViT block 的特征图,强化视觉-语言对齐。

03 实验

实验分为两部分:LIBERO 仿真基准(Franka Panda,4 个任务套件,每套件 500 条专家演示)与ALOHA 真实双臂机器人(ViperX,25 Hz 控制,14 维关节状态,三视角摄像头,4 个灵巧操作任务)。对比方法包括 Diffusion Policy、ACT(从头训练)、Octo、DiT Policy、MDT、Seer(替代方法)以及 RDT-1B、π₀(微调 VLA)。

LIBERO 仿真基准(Table I)

方法SpatialObjectGoalLongAverage
Diffusion Policy78.3%92.5%68.3%50.5%72.4%
Octo78.9%85.7%84.6%51.1%75.1%
DiT Policy84.2%96.3%85.4%63.8%82.4%
OpenVLA(基线)84.7%88.4%79.2%53.7%76.5%
OpenVLA + PD&AC91.3%92.7%90.5%86.5%90.2%
π₀(最高输入配置)96.8%98.8%95.8%85.2%94.2%
OpenVLA-OFT(最高输入配置)97.6%98.4%97.9%94.5%97.1%

推理效率对比(Table II,LIBERO)

方法Throughput (Hz)Latency (sec)
OpenVLA(基线)4.20.2396
+ Parallel Decoding & Chunking108.80.0735
OpenVLA-OFT(含所有输入)71.40.1120
ALOHA 真实机器人任务成功率对比
图 4:ALOHA 双臂机器人上各任务完成度对比(折叠短裤、折叠长袖衬衫、舀取食材、放置物品及 OOD 变体)。OpenVLA-OFT+ 在所有任务上整体领先,平均超越 π₀ 和 RDT-1B 高达 15%(absolute)。

ALOHA 真实机器人推理效率(Table III)

方法Throughput (Hz)Latency (sec)
OpenVLA(基线)1.80.543
OpenVLA-OFT+77.90.321
RDT-1B84.10.297
π₀291.60.086
ALOHA 语言接地能力对比
图 5:ALOHA 多任务语言接地测试。OpenVLA-OFT+(加入 FiLM)能正确区分"折叠短裤"与"折叠长袖衬衫"等语义相近指令,而去掉 FiLM 后语言接地能力明显下降。

消融实验

04 局限性

Note: 以下局限性由作者在论文末尾明确陈述(stated)。
单峰动作分布假设(L1 regression 的固有限制)

L1 回归假设对给定观测存在单一最优动作。当任务存在真正的多模态动作分布(同一输入对应多种有效行为)时,L1 回归可能退化为对多个峰值取平均,导致动作质量下降。作者指出这一限制,并建议在多模态场景中考虑扩散类目标。

研究范围仅限微调阶段(fine-tuning only)

本工作专注于研究如何将现有 VLA 模型(OpenVLA)高效适配到新场景,未涉及预训练阶段的优化。OFT 配方能否直接用于大规模预训练、或对其他 VLA 架构(如 π₀)同样有效,目前尚不明确。

FiLM 语言接地差异的成因未解释

实验发现 FiLM 在 LIBERO 仿真中作用有限,但在 ALOHA 真实机器人上不可或缺。作者坦承目前无法完全解释这一差异,推测可能与 ALOHA 任务中双臂操作预训练数据的分布偏移有关,但尚未定量验证。