Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

01 动机

VLA 模型（如 OpenVLA）将大规模视觉-语言预训练引入机器人操作，但直接迁移到新场景时面临两大瓶颈：推理速度太慢（自回归逐 token 解码）和成功率不足（离散动作表示精度受限）。已有工作倾向于重新设计预训练，而本文聚焦微调阶段，寻找一套通用、高效的系统性配方。

"We investigate optimized fine-tuning (OFT) — a recipe for adapting VLAs to novel robot setups, integrating parallel decoding, action chunking, continuous action representations, and L1 regression."

OpenVLA-OFT teaser — 图 1：OpenVLA-OFT 在双臂 ALOHA 机器人上执行折叠衣物、舀取食材、放置物品等高灵巧度任务。相比基线 OpenVLA，吞吐量提升 43×，并在所有任务上超越 π₀ 与 RDT-1B 等同类 VLA 方法。

97.1%LIBERO 平均成功率（最高输入配置）

26×相较于基线 OpenVLA 的吞吐量提升（仿真）

+15%真实机器人绝对成功率提升（vs. π₀、RDT-1B）

43×ALOHA 机器人吞吐量提升（K=25 动作分块）

02 方法

OFT 配方由四个相互协同的改进组成：以并行解码（parallel decoding）替代自回归逐步生成，以动作分块（action chunking）同时预测多步动作，以连续动作表示（continuous action representation）取代 256-bin 离散 tokenization，并采用 L1 回归作为训练目标。针对多视角真实机器人场景，还引入 FiLM 语言调制增强语言接地能力。

设计选择对比：自回归 vs 并行解码，离散 vs 连续动作 — 论文图 2（从 PDF 第 2 页提取）：对比自回归解码（Autoregressive Decoding）与并行解码（Parallel Decoding），以及离散动作表示（Discrete）与连续动作表示（Continuous）的差异。并行解码通过双向 attention 在单次前向传播中生成所有动作，显著降低延迟。

1 · Parallel Decoding & Action Chunking

标准自回归 VLA 逐 token 顺序生成动作，每步推理都要等待前一步完成。并行解码将语言模型最后的 causal attention 替换为双向 attention，以空的动作嵌入作为输入，在单次前向传播中同时预测所有动作 token，消除自回归的串行依赖。动作分块则进一步将每次生成的动作步数扩展到 K 步（仿真 K=8，真实机器人 K=25），既减少调用次数，又通过时序建模提升任务成功率。两者结合带来约 4× 延迟下降和 14%（absolute）成功率提升。

2 · Continuous Actions + L1 Regression

原始 OpenVLA 将连续动作离散化为 256 个 bin，以 next-token prediction 方式训练，精度受量化误差限制。本文改用一个轻量 MLP action head 直接输出连续动作值，并以 L1 regression（mean absolute error） 为目标函数。L1 相比扩散目标收敛更快、推理无需迭代采样，同时保持与 Diffusion Policy 相当的任务质量。消融实验显示，Continuous + L1 与 Continuous + Diffusion 性能相近（95.3% vs. 95.4%），但推理更快。

3 · FiLM 语言调制（真实机器人）

在 LIBERO 仿真中，无 FiLM 也能实现良好的语言接地；但在 ALOHA 双臂机器人（多视角摄像头 + 更复杂任务）上，不加 FiLM 语言接地能力明显下降。Feature-wise Linear Modulation (FiLM) 将语言嵌入通过学习的仿射变换（scaling + shift）注入 Vision Transformer 各层，调制视觉特征，使模型能更有效区分"折叠短裤"与"折叠长袖衬衫"等语义差异任务。

FiLM 语言调制机制 — 图 8：FiLM 在 Vision Transformer 中的实现示意。任务语言嵌入经 MLP 生成 scale 与 shift 参数，直接调制各 ViT block 的特征图，强化视觉-语言对齐。

03 实验

实验分为两部分：LIBERO 仿真基准（Franka Panda，4 个任务套件，每套件 500 条专家演示）与ALOHA 真实双臂机器人（ViperX，25 Hz 控制，14 维关节状态，三视角摄像头，4 个灵巧操作任务）。对比方法包括 Diffusion Policy、ACT（从头训练）、Octo、DiT Policy、MDT、Seer（替代方法）以及 RDT-1B、π₀（微调 VLA）。

LIBERO 仿真基准（Table I）

方法	Spatial	Object	Goal	Long	Average
Diffusion Policy	78.3%	92.5%	68.3%	50.5%	72.4%
Octo	78.9%	85.7%	84.6%	51.1%	75.1%
DiT Policy	84.2%	96.3%	85.4%	63.8%	82.4%
OpenVLA（基线）	84.7%	88.4%	79.2%	53.7%	76.5%
OpenVLA + PD&AC	91.3%	92.7%	90.5%	86.5%	90.2%
π₀（最高输入配置）	96.8%	98.8%	95.8%	85.2%	94.2%
OpenVLA-OFT（最高输入配置）	97.6%	98.4%	97.9%	94.5%	97.1%

推理效率对比（Table II，LIBERO）

方法	Throughput (Hz)	Latency (sec)
OpenVLA（基线）	4.2	0.2396
+ Parallel Decoding & Chunking	108.8	0.0735
OpenVLA-OFT（含所有输入）	71.4	0.1120

ALOHA 真实机器人任务成功率对比 — 图 4：ALOHA 双臂机器人上各任务完成度对比（折叠短裤、折叠长袖衬衫、舀取食材、放置物品及 OOD 变体）。OpenVLA-OFT+ 在所有任务上整体领先，平均超越 π₀ 和 RDT-1B 高达 15%（absolute）。

ALOHA 真实机器人推理效率（Table III）

方法	Throughput (Hz)	Latency (sec)
OpenVLA（基线）	1.8	0.543
OpenVLA-OFT+	77.9	0.321
RDT-1B	84.1	0.297
π₀	291.6	0.086

ALOHA 语言接地能力对比 — 图 5：ALOHA 多任务语言接地测试。OpenVLA-OFT+（加入 FiLM）能正确区分"折叠短裤"与"折叠长袖衬衫"等语义相近指令，而去掉 FiLM 后语言接地能力明显下降。

消融实验

去掉预训练权重（从头训练）：LIBERO 平均成功率下降 5.2%，验证 VLA 预训练表征的持续价值。
并行解码 vs 自回归：并行解码带来约 4× 延迟下降，且成功率提升 ~14%（absolute），挑战了"自回归生成对机器人操作必不可少"的假设。
L1 vs Diffusion：两者 LIBERO 平均成功率相近（95.3% vs. 95.4%），但 L1 推理无需迭代采样，速度更快。
FiLM 消融：LIBERO 中加入 FiLM 无显著影响；ALOHA 中不加 FiLM 则语言接地能力明显下降，差异成因尚不明确，可能与双臂预训练数据分布有关。

04 局限性

Note: 以下局限性由作者在论文末尾明确陈述（stated）。

单峰动作分布假设（L1 regression 的固有限制）

L1 回归假设对给定观测存在单一最优动作。当任务存在真正的多模态动作分布（同一输入对应多种有效行为）时，L1 回归可能退化为对多个峰值取平均，导致动作质量下降。作者指出这一限制，并建议在多模态场景中考虑扩散类目标。

研究范围仅限微调阶段（fine-tuning only）

本工作专注于研究如何将现有 VLA 模型（OpenVLA）高效适配到新场景，未涉及预训练阶段的优化。OFT 配方能否直接用于大规模预训练、或对其他 VLA 架构（如 π₀）同样有效，目前尚不明确。

FiLM 语言接地差异的成因未解释

实验发现 FiLM 在 LIBERO 仿真中作用有限，但在 ALOHA 真实机器人上不可或缺。作者坦承目前无法完全解释这一差异，推测可能与 ALOHA 任务中双臂操作预训练数据的分布偏移有关，但尚未定量验证。