机器人 · Robotics · arXiv 2025

VLANeXt: Recipes for Building Strong VLA Models

系统提炼 12 条构建强大 Vision-Language-Action 模型的设计准则
Xiao-Ming Wu, Bin Fan, Kang Liao, Jian-jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

VLA 模型设计空间碎片化严重,不同方法之间缺乏统一的比较基准。本文以 RT-2 为基线,系统考察了基础组件、感知设计与动作建模三个维度的关键设计选择,提炼出 12 条实用准则,构建出 VLANeXt。以 2.5B 参数规模,VLANeXt 在 LIBERO 和 LIBERO-plus 基准上超越了参数量达 7B 的 OpenVLA-OFT,并在真实机器人操作任务中展现出强泛化性能。

arXiv 2026 (v2: May 20, 2026) 2.5B 参数 LIBERO · LIBERO-plus · 真实机器人 📄 arXiv:2602.18532 💻 GitHub 代码
VLA vision-language-action 策略学习 flow matching action chunking Qwen3-VL 多视角感知 LIBERO robot manipulation 机器人操控

01 动机

当前 VLA(Vision-Language-Action)模型研究存在严重的设计碎片化问题:各方法在不同模型规模、不同数据集上独立提出各自的模块,缺乏公平的横向对比,导致社区难以判断哪些设计选择真正重要、如何系统地改进模型。

"We distill 12 key findings that together form a practical recipe for building strong VLA models."
LIBERO 和 LIBERO-plus 基准性能对比
图 1:LIBERO 与 LIBERO-plus 基准性能对比。VLANeXt(2.5B 参数)在多个基准上超越了参数量为 7B 的 OpenVLA-OFT 等代表性 VLA 模型,验证了设计准则的有效性,而非靠堆砌参数量取胜。
97.4%LIBERO 全套均值(vs. OpenVLA-OFT 97.1%)
83.9%LIBERO-plus 均值(vs. OpenVLA-OFT 69.6%)
+14.3%LIBERO-plus 上超越 OpenVLA-OFT
2.5B参数规模(仅为 OpenVLA-OFT 的 35%)

本文选取 RT-2/OpenVLA 范式(预训练 VLM + 策略头)作为统一基线,在相同实验设置下逐步改变一个设计维度,严格量化每项改动的收益。这种受控实验思路揭示了此前被忽视却影响显著的设计规律。

02 方法

VLANeXt 以 Qwen3-VL-2B 作为多模态语言主干,连接一个基于 16 个 meta-query token 的 12 层 Transformer 策略模块,通过 soft layer-wise 连接实现 VLM 与策略模块的信息交互,并采用 flow matching 目标对 chunk size=8 的连续动作序列进行预测,辅以频域 MSE 损失正则化。

VLANeXt 整体架构图
图 7:VLANeXt 整体架构。第三视角相机与腕部相机的多视角视觉输入、语言指令及本体感知状态分别经过 tokenization 后进入多模态 LLM;meta-query token 通过层间 soft connection 从 VLM 各层提取特征,汇入 12 层 Transformer 策略模块;最终由 flow matching 生成 8 步动作块,并附有频域辅助损失。

12 条核心设计准则

本文通过消融实验系统验证了以下 12 条关键设计发现(每次仅改变一个变量):

FINDING 01
独立策略模块优于 token 复用
设置独立的 class token 策略头,而非复用文本 token,带来显著性能提升(19.8% → 30.2%)。
FINDING 02
更大策略模块带来显著增益
将 token 数从 1 扩展至 16、策略层数从 2 扩展至 12,性能从 30.2% 跃升至 64.4%。
FINDING 03
Action chunking 增强动作连贯性
预测未来 8 步动作块(chunk size=8)比单步预测稳定性更高(64.4% → 74.6%)。
FINDING 04
Flow matching 超越分类离散化
连续动作目标(flow matching)显著优于分箱分类方式(74.6% → 80.0%)。
FINDING 05
更强的 VLM 主干至关重要
从 LLaMA 切换至 Qwen3-VL-2B 后,性能从 80.0% 大幅提升至 90.0%。
FINDING 06
Soft VLM-Policy 连接微优于其他
层间 soft connection(含可学习 query buffer)略优于 loose 和 tight 两种连接方式(90.0% → 91.8%)。
FINDING 07
历史帧无益甚至有害
添加多帧历史输入并不改善性能,反而可能因主干视频预训练的不匹配而下降。
FINDING 08
多视角相机提供互补线索
结合第三视角与腕部相机,性能从 91.8% 跃升至 97.6%,是单一感知改动中增益最大的一项。
FINDING 09
本体感知注入 VLM 侧效果最优
将 proprioception 输入 VLM 而非策略模块,或两者均输入,在 LIBERO-plus 上表现最优(97.6% → 98.0%)。
FINDING 10
线性投影即可满足本体感知需求
Linear projector 与更复杂的 Transformer-based projector 性能相当,无需额外复杂度。
FINDING 11
频域损失提供有效正则化
DCT-based 频域 MSE 辅助损失带来可观的稳健性提升(98.0% → 99.0%),计算开销极小。
FINDING 12
World modeling 有效但代价高昂
辅以未来帧预测的世界建模目标可改善性能,但 "substantially higher training cost makes it less practical",故未纳入最终模型。
策略模块设计选择示意
图 3:策略模块设计选择。(a) 基线:直接复用文本 token;(b) 独立 class token 策略头;(c) 16 个 meta-query token + 12 层 Transformer,类似 MetaQuery 结构,这是最终采用的方案。

03 实验

实验在 LIBERO 基准(四个套件:Spatial / Object / Goal / Long)和更具挑战性的 LIBERO-plus(含摄像头位置、光照、背景等扰动)上评估,同时在真实单臂与双臂机器人操作任务上与 OpenVLA-OFT 及 π₀ 对比。训练采用 10,000 步,batch size 256,学习率 1×10⁻⁴。

消融轨迹(设计准则逐步累积效果)

消融轨迹:逐步应用各设计准则的性能变化
图 2:设计空间消融轨迹。从 RT-2 基线(19.8%)出发,逐步应用基础组件、感知与动作建模三类改动,LIBERO-spatial 最终达到 99.0%;右侧切换至 LIBERO-plus 指标后继续提升至最终 VLANeXt 结果。

LIBERO 全套基准(Table 2)

模型SpatialObjectGoalLongAverage
OpenVLA-OFT (7B)98.0%99.6%95.4%95.4%97.1%
VLANeXt (2.5B)99.0%99.2%96.6%94.8%97.4%

LIBERO-plus 鲁棒性基准(Table 3)

模型LIBERO-plus Average
OpenVLA-OFT (7B)69.6%
VLANeXt (2.5B)83.9%

在包含摄像头位置、光照和背景扰动的 LIBERO-plus 上,VLANeXt 以更小的参数量实现约 14% 的鲁棒性提升,验证了多视角感知、频域正则化等设计对泛化性的贡献。

真实机器人实验(Table 4)

真实世界机器人操作任务
图 8:真实机器人实验任务。从左到右:单臂桌面清理(物品拾取放入容器)、单臂抽屉操作(开关+插入)、双臂篮子搬运、双臂协同清理。VLANeXt 在全部 4 项任务上超越 OpenVLA-OFT 与 π₀ 基线。
任务成功次数(/20)
单臂桌面清理14/20
单臂抽屉操作11/20
双臂协同清理11/20
双臂篮子搬运15/20

关键消融发现

消融实验揭示了以下显著规律:(1)多视角输入是单项收益最大的感知改动(+5.8%,LIBERO-spatial);(2)VLM 主干选择对性能影响远超策略模块结构(Qwen3-VL vs. LLaMA 差距约 10%);(3)历史帧在当前设置下无益,这与直觉相悖,可能源于视频预训练分布与机器人数据的不匹配;(4)"where information is injected matters as much as what information is used"——本体感知注入位置对性能影响显著。

04 局限性

Note:论文无独立 Limitations 章节。以下条目:标注「明确陈述」者源自论文原文;标注「设计推断」者为从方法设计合理推断。
World modeling 代价高昂,未纳入最终模型(明确陈述)

论文明确指出,辅以未来帧预测的世界建模虽然有助于提升性能,但 "substantially higher training cost makes it less practical",因此最终 VLANeXt 未包含此组件。这意味着世界建模带来的潜在增益被放弃以换取实用性。

历史帧有效利用问题未解决(设计推断)

Finding 7 表明添加多帧历史输入并不改善、甚至可能降低性能,但论文未深入分析根本原因,也未提出解决方案。如何让 VLA 模型有效利用时序历史信息仍是开放问题。

评估场景规模有限(设计推断)

实验主要集中于 LIBERO 系列基准和 4 类真实机器人任务,涉及的技能多样性和场景复杂度有限,泛化至更广泛真实场景的能力有待进一步验证。

数据规模效应未充分探讨(设计推断)

本文聚焦架构与训练目标的设计选择,对大规模预训练数据的影响分析较少。设计准则在数据量显著增大时是否依然成立,尚不清晰。