OpenVLA: An Open-Source Vision-Language-Action Model

01 动机

当前最强的视觉-语言-动作（VLA）模型（如 RT-2-X）均为闭源，架构、训练数据、部署方法均不公开；而开源社区的替代方案又缺乏在消费级硬件上高效适配新机器人和任务的实用手段。OpenVLA 旨在填补这一空白。

"We present OpenVLA, a 7B-parameter open-source VLA trained on 970k real-world robot demonstrations from the Open X-Embodiment dataset, and show that it outperforms RT-2-X (55B parameters) by 16.5% on manipulation tasks while requiring 7× fewer parameters."

OpenVLA 架构概览与评估结果 — 左：OpenVLA 总览图，展示输入（图像 + 语言指令）→ 双视觉编码器（DINOv2 ∥ SigLIP）→ MLP 投影→ Llama 2 → 动作 token 输出的完整流程。右：在 BridgeData V2 和 Google Robot 平台上的成功率对比。

970kOpen X-Embodiment 真实演示轨迹

+16.5%超越 RT-2-X（BridgeData V2 成功率）

7B参数量（RT-2-X 参数的 1/7）

1.4%LoRA 仅需微调该比例参数即可达全量效果

现有方法的两大痛点

封闭生态

RT-2-X 等顶尖 VLA 不公开权重与训练代码，研究者无法复现、改进或深入理解其决策机制。学术界和工业界被迫从头开发，资源浪费严重。

部署门槛高

现有 VLA 论文几乎没有讨论如何高效地将模型适配到新机器人、新场景、新任务。全量微调需要多台 A100，普通实验室无法承受。量化和 LoRA 等方法在 VLA 场景下的效果尚未系统研究。

02 方法

OpenVLA 将机器人控制重新表述为视觉-语言任务：给定图像观测和语言指令，模型以自回归 token 序列方式预测连续动作。核心创新在于双视觉编码器融合、动作 token 化方案，以及基于 Open X-Embodiment 的大规模多机器人训练。

模型架构 — **OpenVLA 三段式架构：**① 视觉编码器（DINOv2 + SigLIP 特征拼接）捕获空间细节与语义理解；② 2 层 MLP 投影器将视觉特征映射至语言空间；③ Llama 2 7B 语言主干自回归生成动作 token。

双视觉编码器融合

OpenVLA 将 DINOv2（擅长空间推理与细粒度定位）和 SigLIP（擅长语义理解与语言对齐）的特征在 token 维度直接拼接，输入 224×224 像素图像。实验证明：更高分辨率（如 384×384）在机器人操作任务上没有带来性能提升，却使训练时间增加了 3 倍。

动作离散化与 Token 化

对每个动作维度，使用训练数据的 1st–99th 百分位范围均匀离散化为 256 个 bin。为最小化对语言知识的干扰，将 Llama 2 词表中使用频率最低的 256 个 token 直接覆写为动作 token，并在交叉熵损失中只计算动作 token 的梯度。

训练数据与课程

数据源：Open X-Embodiment 数据集，经严格过滤后保留 970k 条轨迹
过滤准则：第三视角相机、单臂操作、非全零动作序列
混合权重沿用 Octo 的 embodiment/task/scene 均衡策略；DROID 数据集因动作 token 准确率过低在训练后期移除
训练基础：Prismatic VLM（预训练于视觉-语言理解任务）
超参数：固定学习率 2e-5（无 warmup），batch size 2048，共 27 个 epoch；64 块 A100 训练 14 天（21,500 A100-hours）

参数高效微调（LoRA）

针对将 OpenVLA 适配至新机器人设置（如 Franka Emika Panda），作者系统评估了 LoRA、Sandwich adapter 及全量微调方案。LoRA r=32 仅需训练 97.6M 参数（全量的 1.4%），在单块 A100 上完成微调（10–15 小时），显存需求从 163.3 GB 降至 59.7 GB，且性能与全量微调持平。

量化推理

使用 bitsandbytes 库的 int4 量化，在保持 71.9% 成功率（与 bfloat16 的 71.3% 相当）的同时，将推理显存从 16.8 GB 压缩至 7.0 GB，使 OpenVLA 可在单张消费级 GPU 上运行。

03 实验

在三个真实机器人平台（WidowX、Google Robot、Franka）上评估，对比基线包括 RT-2-X、RT-1-X、Octo 和 Diffusion Policy。评测维度涵盖视觉泛化（新背景、干扰物）、运动泛化（新位置）、物理泛化（新大小/形状）和语义泛化（新物体、新指令）。

零样本评测：超越 RT-2-X

BridgeData V2 评估结果 — BridgeData V2（WidowX 机器人）上 29 个任务的成功率对比。OpenVLA 在视觉、运动、物理、语义四类泛化场景下均优于 RT-2-X（55B），且仅使用 7B 参数。

模型	BridgeData V2 成功率	Google Robot 成功率	参数量
RT-2-X（闭源）	54.8%	~75%	55B
RT-1-X	—	<75%	35M
Octo	<54.8%	<75%	93M
OpenVLA（本文）	71.3% ±4.8%	75.0%	7B

Google Robot 评估结果 — Google Robot 平台评估结果，OpenVLA 在多个任务类别下与 RT-2-X 表现相当，并在语言泛化任务中展现出更强的指令跟随能力。

数据高效微调：适配新机器人设置

Franka 机器人微调结果对比 — 在 Franka Emika Panda 机器人 7 个任务（10–150 条演示）上的微调对比。OpenVLA 微调后在所有任务上均达到 ≥50% 成功率，而竞争基线方法在部分任务上接近 0%。

方法	综合成功率	最低单任务成功率
Diffusion Policy	47.4% ±5.4%	—
Octo 微调	47.0% ±5.5%	~0%（部分任务）
OpenVLA 从头训练	42.2% ±5.9%	—
OpenVLA 微调	56.6% ±5.8%	≥50%（全部任务）

参数高效微调对比（Franka-Tabletop，33 次 rollout）

微调策略	成功率	可训练参数（M）	显存（batch 16）
Full FT（全量微调）	69.7 ±7.2%	7,188.1	163.3 GB*
LoRA r=32	68.2 ±7.5%	97.6	59.7 GB
LoRA r=64	68.2 ±7.8%	195.2	60.5 GB
Sandwich Adapter	62.1 ±7.9%	914.2	64.0 GB

量化精度对比（BridgeData V2，80 次 rollout）

精度	成功率	推理显存
bfloat16	71.3 ±4.8%	16.8 GB
int8	58.1 ±5.1%	10.2 GB
int4	71.9 ±4.7%	7.0 GB

Ablation 分析要点

视觉编码器必须微调：冻结视觉编码器使性能显著下降，因为预训练 VLM 的特征缺乏机器人控制所需的细粒度空间信息。
Prismatic 优于 LLaVA ~10%：在多物体语言定位任务上，基于 Prismatic 的 VLM 主干优于 LLaVA-1.5 约 10%。
数据量是关键：OpenVLA 的 970k 演示（含精心过滤）远超 RT-2-X 的 350k，这是性能领先的重要因素之一。
推理吞吐：bfloat16 精度下在 RTX 4090 上约 6 Hz；int4 量化在 Ada Lovelace 架构 GPU 上因 kernel 优化实现更高吞吐。

推理速度对比 — 不同 GPU 和量化精度下 OpenVLA 的推理吞吐（Hz）对比。int4 量化在支持的 GPU 上可显著提升推理速度。

04 局限性

Note：以下局限性均由作者在论文中明确指出（stated by the authors）。

单帧图像输入，缺乏时序历史

OpenVLA 当前仅支持单张图像作为观测输入，不支持观测历史序列，也不支持 proprioceptive（本体感知）信息（如关节角度）。这使其无法处理需要时序推理的任务（如 ALOHA 双臂操作），也与 Octo 等支持多模态输入的策略存在差距。

推理吞吐不足，约 6 Hz（RTX 4090）

受 Llama 2 自回归解码的限制，OpenVLA 的推理速度约为 6 Hz，远低于 ALOHA 等高频控制系统所需的 50 Hz。这限制了其在需要快速响应的灵巧操作任务中的应用。

任务成功率通常低于 90%

尽管在多个基准上超越现有方法，OpenVLA 在大多数任务上的成功率仍低于 90%，离真实部署所需的鲁棒性存在差距。

多项设计问题尚待探索

作者指出以下问题未被充分研究：① 基础 VLM 规模（7B 是否最优）；② 与 Internet 数据联合训练的效果；③ 视觉特征选择的最优方案（DINOv2 + SigLIP 组合是否是最优选择）。这些问题留待未来工作解答。