VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

01 动机

现有 VLA 模型普遍依赖数十亿参数的视觉语言骨干（如 7B LLM）与大规模机器人预训练数据，导致训练成本高、推理延迟大，难以在消费级硬件上部署。本文的核心问题是：能否仅用一个微小的 VLM 骨干（0.5B），通过设计更好的 bridging 方式，达到甚至超越大模型的操作性能？

"We propose VLA-Adapter to reduce VLA's reliance on large-scale Vision-Language Models and extensive pre-training … achieving state-of-the-art performance using only a 0.5B-parameter backbone without robotic data pre-training."

VLA-Adapter teaser：参数量 vs 性能对比 — 图1：VLA-Adapter 的核心特点——使用最小规模骨干（0.5B），在 LIBERO 系列基准上达到 SOTA 性能，同时具备极高推理吞吐量。横轴为骨干参数量，纵轴为平均成功率。

0.5B骨干参数量（vs 同类 7B）

97.3%LIBERO 平均成功率

219.2 Hz推理吞吐量（OpenVLA 仅 4.2 Hz）

8 h单块消费级 GPU 完整训练时长

02 方法

VLA-Adapter 的核心是将 VLM 产生的多模态表征以最优方式"桥接"到动作空间。论文首先系统梳理了四种 bridging paradigm（图2），随后提出包含条件探索与 Bridge Attention 设计的 Policy 模块（图3），并通过 97M 参数的轻量网络（图4）输出 H 步 action chunk。

现有 bridging paradigm 对比 — 图2：四种已有 Vision-Language→Action bridging 范式的系统梳理。从左至右分别对应 token concatenation、cross-attention injection、prefix conditioning 和 full fine-tuning 等典型策略，揭示各自的信息传递方式与局限。

图3：VLA-Adapter 整体框架。冻结的 VLM 骨干提取 raw latent features ℛ 与 ActionQuery latent AQ；Policy 模块通过 Bridge Attention 将这两类条件注入动作空间，输出 H 步动作序列。

条件分析：哪层特征最有用？

论文对 VLM 内部特征进行系统分析，得出三个关键结论：

Raw features：中间层特征优于深层特征——深层特征更偏向语义抽象，缺乏对动作执行至关重要的细粒度多模态细节。
ActionQuery：深层 ActionQuery 优于浅层——ActionQuery 是任务导向的、经过训练的聚合表征，越深层越富有多模态信息。
多层组合：多层特征的融合始终优于单层特征，最终采用"all-layer raw + deep ActionQuery"的组合。

Bridge Attention 设计

Bridge Attention 由两个 cross-attention 和一个 self-attention 构成。它分别处理 raw latent ℛ（多模态细节）与 ActionQuery latent AQ（聚合信息），通过 MLP 生成 key-value pair。一个可学习参数"Ratio g"以 tanh(g) ∈ [−1, 1] 控制 raw features 的注入程度，防止分布不稳定；AQ 则以固定权重 1.0 注入，从而在灵活性与稳定性间取得最优平衡。

Policy with Bridge Attention 架构 — 图4：Policy 模块详细结构（97M 参数）。每一层包含 Bridge Attention 和 Feed-Forward Network，以 {ℛ, AQ, 初始动作 latent, 本体感知状态} 为输入，输出 H 步 action chunk。

03 实验

实验在 LIBERO（Spatial / Object / Goal / Long 四个子集）和 CALVIN ABC→D 两大基准上与多个 SOTA VLA 对比，同时评估效率指标（吞吐量、延迟）和冻结骨干场景下的泛化能力。骨干使用 Qwen2.5-0.5B，无机器人数据预训练。

LIBERO 基准对比（表5）

方法	参数量	Spatial	Object	Goal	Long	Avg.
π0	3B	96.8%	98.8%	95.8%	85.2%	94.2%
SmolVLA	2.2B	93.0%	94.0%	91.0%	77.0%	88.8%
OpenVLA-OFT	7B	97.6%	98.4%	97.9%	94.5%	97.1%
VLA-Adapter（ours）	0.5B	97.8%	99.2%	97.2%	95.0%	97.3%
VLA-Adapter-Pro（ours）	0.5B	99.6%	99.6%	98.2%	96.4%	98.5%

CALVIN ABC→D 基准对比（表6）

方法	参数量	Task 1	Task 2	Task 3	Task 4	Task 5	Avg. Len
OpenVLA-OFT	7B	96.3%	89.1%	82.4%	75.8%	66.5%	4.10
VLA-Adapter（ours）	0.5B	99.1%	94.6%	88.8%	82.8%	76.5%	4.42
VLA-Adapter-Pro（ours）	0.5B	98.5%	95.0%	90.5%	85.3%	80.0%	4.50

推理效率对比（表4）

方法	吞吐量 (Hz)	延迟 (sec)
OpenVLA	4.2	0.2396
VLA-Adapter（ours）	219.2	0.0365

VLA-Adapter 的吞吐量比 OpenVLA 提升 52×，延迟降低 6.5×，满足实时控制需求。

真实机器人实验

真实机器人任务对比 — 图5：在 Synria Alicia-D 机器人系统上进行真实世界任务评估，涵盖多种场景（抓取、摆放、工具使用等），VLA-Adapter 表现出稳健的迁移能力。

消融实验

消融实验（表7，LIBERO-Long）验证了各条件组合的贡献：

条件组合	成功率
仅 last-layer raw	85.8%
仅 ActionQuery	90.2%
仅 intermediate raw	88.4%
仅 all-layer raw	90.6%
all-layer raw + ActionQuery（ours）	95.0%

注入度消融（表8）显示：raw features 采用可学习 tanh(g)、AQ 固定为 1.0 的组合最优（95.0%），优于两者均可学习（92.6%）或均固定（91.4%）的方案。ActionQuery token 数量实验（图8）表明 64 个 token 为最优平衡点，更多 token 带来冗余干扰。

骨干缩放实验（表2）进一步表明，VLA-Adapter 框架对骨干规模并不敏感：从 0.5B 到 7B，LIBERO-Long 成功率仅从 95.0% 提升至 95.4%，验证了框架本身的有效性而非单纯依赖骨干能力。

04 局限性

Note: 以下局限性均为论文作者在 Limitations 章节中明确陈述（stated）。

真实场景泛化能力有待提升

"Because VLA-Adapter is not pre-trained on a large amount of embodied data and the scale is tiny, its generalization in real-world systems needs to be improved."——受限于骨干规模极小（0.5B）且未在大规模具身数据上预训练，模型在新场景、新任务上的零样本或少样本泛化能力仍有差距。

动作质量依赖 VLM 条件质量

"The quality of the actions generated depends on conditions provided by the VLM and how they are used."——Bridge Attention 的效果上限受 VLM 提供的 raw features 和 ActionQuery 特征质量约束，VLM 骨干的表达能力直接影响 Policy 能否获得足够有效的条件信号。

训练流程仍较简单，未探索强化学习

"The fundamental training process is still relatively simple, and processes such as reinforcement learning can be explored."——当前仅使用模仿学习（行为克隆）范式训练，未引入 RL fine-tuning 或 RLHF 等更复杂的训练策略，存在进一步提升空间。