机器人 · Robotics · arXiv 2025

VLA-Adapter

An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang  ·  北京邮电大学 · 西湖大学 · 浙江大学 · 港科大(广州)

VLA-Adapter 提出一套轻量化 VLA 范式:通过系统性分析不同 bridging paradigm,设计出带有 Bridge Attention 的 Policy 模块,仅用 0.5B 参数骨干即可在 LIBERO、CALVIN 等主流基准上超越 7B 级别 VLA,同时推理吞吐量比 OpenVLA 快 52×,单卡 8 小时即可完成训练。

0.5B 参数骨干 97.3% LIBERO Avg. 4.42 CALVIN ABC→D 📄 arXiv:2509.09372 PDF
VLA Vision-Language-Action Bridge Attention 机器人操作 轻量级策略 条件注入 imitation learning 具身智能

01 动机

现有 VLA 模型普遍依赖数十亿参数的视觉语言骨干(如 7B LLM)与大规模机器人预训练数据,导致训练成本高、推理延迟大,难以在消费级硬件上部署。本文的核心问题是:能否仅用一个微小的 VLM 骨干(0.5B),通过设计更好的 bridging 方式,达到甚至超越大模型的操作性能?

"We propose VLA-Adapter to reduce VLA's reliance on large-scale Vision-Language Models and extensive pre-training … achieving state-of-the-art performance using only a 0.5B-parameter backbone without robotic data pre-training."
VLA-Adapter teaser:参数量 vs 性能对比
图1:VLA-Adapter 的核心特点——使用最小规模骨干(0.5B),在 LIBERO 系列基准上达到 SOTA 性能,同时具备极高推理吞吐量。横轴为骨干参数量,纵轴为平均成功率。
0.5B骨干参数量(vs 同类 7B)
97.3%LIBERO 平均成功率
219.2 Hz推理吞吐量(OpenVLA 仅 4.2 Hz)
8 h单块消费级 GPU 完整训练时长

02 方法

VLA-Adapter 的核心是将 VLM 产生的多模态表征以最优方式"桥接"到动作空间。论文首先系统梳理了四种 bridging paradigm(图2),随后提出包含条件探索与 Bridge Attention 设计的 Policy 模块(图3),并通过 97M 参数的轻量网络(图4)输出 H 步 action chunk。

现有 bridging paradigm 对比
图2:四种已有 Vision-Language→Action bridging 范式的系统梳理。从左至右分别对应 token concatenation、cross-attention injection、prefix conditioning 和 full fine-tuning 等典型策略,揭示各自的信息传递方式与局限。
VLA-Adapter 整体框架
图3:VLA-Adapter 整体框架。冻结的 VLM 骨干提取 raw latent features ℛ 与 ActionQuery latent AQ;Policy 模块通过 Bridge Attention 将这两类条件注入动作空间,输出 H 步动作序列。

条件分析:哪层特征最有用?

论文对 VLM 内部特征进行系统分析,得出三个关键结论:

Bridge Attention 设计

Bridge Attention 由两个 cross-attention 和一个 self-attention 构成。它分别处理 raw latent ℛ(多模态细节)与 ActionQuery latent AQ(聚合信息),通过 MLP 生成 key-value pair。一个可学习参数"Ratio g"以 tanh(g) ∈ [−1, 1] 控制 raw features 的注入程度,防止分布不稳定;AQ 则以固定权重 1.0 注入,从而在灵活性与稳定性间取得最优平衡。

Policy with Bridge Attention 架构
图4:Policy 模块详细结构(97M 参数)。每一层包含 Bridge Attention 和 Feed-Forward Network,以 {ℛ, AQ, 初始动作 latent, 本体感知状态} 为输入,输出 H 步 action chunk。

03 实验

实验在 LIBERO(Spatial / Object / Goal / Long 四个子集)和 CALVIN ABC→D 两大基准上与多个 SOTA VLA 对比,同时评估效率指标(吞吐量、延迟)和冻结骨干场景下的泛化能力。骨干使用 Qwen2.5-0.5B,无机器人数据预训练。

LIBERO 基准对比(表5)

方法参数量SpatialObjectGoalLongAvg.
π03B96.8%98.8%95.8%85.2%94.2%
SmolVLA2.2B93.0%94.0%91.0%77.0%88.8%
OpenVLA-OFT7B97.6%98.4%97.9%94.5%97.1%
VLA-Adapter(ours)0.5B97.8%99.2%97.2%95.0%97.3%
VLA-Adapter-Pro(ours)0.5B99.6%99.6%98.2%96.4%98.5%

CALVIN ABC→D 基准对比(表6)

方法参数量Task 1Task 2Task 3Task 4Task 5Avg. Len
OpenVLA-OFT7B96.3%89.1%82.4%75.8%66.5%4.10
VLA-Adapter(ours)0.5B99.1%94.6%88.8%82.8%76.5%4.42
VLA-Adapter-Pro(ours)0.5B98.5%95.0%90.5%85.3%80.0%4.50

推理效率对比(表4)

方法吞吐量 (Hz)延迟 (sec)
OpenVLA4.20.2396
VLA-Adapter(ours)219.20.0365

VLA-Adapter 的吞吐量比 OpenVLA 提升 52×,延迟降低 6.5×,满足实时控制需求。

真实机器人实验

真实机器人任务对比
图5:在 Synria Alicia-D 机器人系统上进行真实世界任务评估,涵盖多种场景(抓取、摆放、工具使用等),VLA-Adapter 表现出稳健的迁移能力。

消融实验

消融实验(表7,LIBERO-Long)验证了各条件组合的贡献:

条件组合成功率
仅 last-layer raw85.8%
仅 ActionQuery90.2%
仅 intermediate raw88.4%
仅 all-layer raw90.6%
all-layer raw + ActionQuery(ours)95.0%

注入度消融(表8)显示:raw features 采用可学习 tanh(g)、AQ 固定为 1.0 的组合最优(95.0%),优于两者均可学习(92.6%)或均固定(91.4%)的方案。ActionQuery token 数量实验(图8)表明 64 个 token 为最优平衡点,更多 token 带来冗余干扰。

骨干缩放实验(表2)进一步表明,VLA-Adapter 框架对骨干规模并不敏感:从 0.5B 到 7B,LIBERO-Long 成功率仅从 95.0% 提升至 95.4%,验证了框架本身的有效性而非单纯依赖骨干能力。

04 局限性

Note: 以下局限性均为论文作者在 Limitations 章节中明确陈述(stated)。
真实场景泛化能力有待提升

"Because VLA-Adapter is not pre-trained on a large amount of embodied data and the scale is tiny, its generalization in real-world systems needs to be improved."——受限于骨干规模极小(0.5B)且未在大规模具身数据上预训练,模型在新场景、新任务上的零样本或少样本泛化能力仍有差距。

动作质量依赖 VLM 条件质量

"The quality of the actions generated depends on conditions provided by the VLM and how they are used."——Bridge Attention 的效果上限受 VLM 提供的 raw features 和 ActionQuery 特征质量约束,VLM 骨干的表达能力直接影响 Policy 能否获得足够有效的条件信号。

训练流程仍较简单,未探索强化学习

"The fundamental training process is still relatively simple, and processes such as reinforcement learning can be explored."——当前仅使用模仿学习(行为克隆)范式训练,未引入 RL fine-tuning 或 RLHF 等更复杂的训练策略,存在进一步提升空间。