VLANeXt: Recipes for Building Strong VLA Models

01 动机

当前 VLA（Vision-Language-Action）模型研究存在严重的设计碎片化问题：各方法在不同模型规模、不同数据集上独立提出各自的模块，缺乏公平的横向对比，导致社区难以判断哪些设计选择真正重要、如何系统地改进模型。

"We distill 12 key findings that together form a practical recipe for building strong VLA models."

LIBERO 和 LIBERO-plus 基准性能对比 — **图 1：LIBERO 与 LIBERO-plus 基准性能对比。**VLANeXt（2.5B 参数）在多个基准上超越了参数量为 7B 的 OpenVLA-OFT 等代表性 VLA 模型，验证了设计准则的有效性，而非靠堆砌参数量取胜。

97.4%LIBERO 全套均值（vs. OpenVLA-OFT 97.1%）

83.9%LIBERO-plus 均值（vs. OpenVLA-OFT 69.6%）

+14.3%LIBERO-plus 上超越 OpenVLA-OFT

2.5B参数规模（仅为 OpenVLA-OFT 的 35%）

本文选取 RT-2/OpenVLA 范式（预训练 VLM + 策略头）作为统一基线，在相同实验设置下逐步改变一个设计维度，严格量化每项改动的收益。这种受控实验思路揭示了此前被忽视却影响显著的设计规律。

02 方法

VLANeXt 以 Qwen3-VL-2B 作为多模态语言主干，连接一个基于 16 个 meta-query token 的 12 层 Transformer 策略模块，通过 soft layer-wise 连接实现 VLM 与策略模块的信息交互，并采用 flow matching 目标对 chunk size=8 的连续动作序列进行预测，辅以频域 MSE 损失正则化。

VLANeXt 整体架构图 — **图 7：VLANeXt 整体架构。**第三视角相机与腕部相机的多视角视觉输入、语言指令及本体感知状态分别经过 tokenization 后进入多模态 LLM；meta-query token 通过层间 soft connection 从 VLM 各层提取特征，汇入 12 层 Transformer 策略模块；最终由 flow matching 生成 8 步动作块，并附有频域辅助损失。

12 条核心设计准则

本文通过消融实验系统验证了以下 12 条关键设计发现（每次仅改变一个变量）：

FINDING 01

独立策略模块优于 token 复用

设置独立的 class token 策略头，而非复用文本 token，带来显著性能提升（19.8% → 30.2%）。

FINDING 02

更大策略模块带来显著增益

将 token 数从 1 扩展至 16、策略层数从 2 扩展至 12，性能从 30.2% 跃升至 64.4%。

FINDING 03

Action chunking 增强动作连贯性

预测未来 8 步动作块（chunk size=8）比单步预测稳定性更高（64.4% → 74.6%）。

FINDING 04

Flow matching 超越分类离散化

连续动作目标（flow matching）显著优于分箱分类方式（74.6% → 80.0%）。

FINDING 05

更强的 VLM 主干至关重要

从 LLaMA 切换至 Qwen3-VL-2B 后，性能从 80.0% 大幅提升至 90.0%。

FINDING 06

Soft VLM-Policy 连接微优于其他

层间 soft connection（含可学习 query buffer）略优于 loose 和 tight 两种连接方式（90.0% → 91.8%）。

FINDING 07

历史帧无益甚至有害

添加多帧历史输入并不改善性能，反而可能因主干视频预训练的不匹配而下降。

FINDING 08

多视角相机提供互补线索

结合第三视角与腕部相机，性能从 91.8% 跃升至 97.6%，是单一感知改动中增益最大的一项。

FINDING 09

本体感知注入 VLM 侧效果最优

将 proprioception 输入 VLM 而非策略模块，或两者均输入，在 LIBERO-plus 上表现最优（97.6% → 98.0%）。

FINDING 10

线性投影即可满足本体感知需求

Linear projector 与更复杂的 Transformer-based projector 性能相当，无需额外复杂度。

FINDING 11

频域损失提供有效正则化

DCT-based 频域 MSE 辅助损失带来可观的稳健性提升（98.0% → 99.0%），计算开销极小。

FINDING 12

World modeling 有效但代价高昂

辅以未来帧预测的世界建模目标可改善性能，但 "substantially higher training cost makes it less practical"，故未纳入最终模型。

策略模块设计选择示意 — **图 3：策略模块设计选择。**(a) 基线：直接复用文本 token；(b) 独立 class token 策略头；(c) 16 个 meta-query token + 12 层 Transformer，类似 MetaQuery 结构，这是最终采用的方案。

03 实验

实验在 LIBERO 基准（四个套件：Spatial / Object / Goal / Long）和更具挑战性的 LIBERO-plus（含摄像头位置、光照、背景等扰动）上评估，同时在真实单臂与双臂机器人操作任务上与 OpenVLA-OFT 及 π₀ 对比。训练采用 10,000 步，batch size 256，学习率 1×10⁻⁴。

消融轨迹（设计准则逐步累积效果）

消融轨迹：逐步应用各设计准则的性能变化 — **图 2：设计空间消融轨迹。**从 RT-2 基线（19.8%）出发，逐步应用基础组件、感知与动作建模三类改动，LIBERO-spatial 最终达到 99.0%；右侧切换至 LIBERO-plus 指标后继续提升至最终 VLANeXt 结果。

LIBERO 全套基准（Table 2）

模型	Spatial	Object	Goal	Long	Average
OpenVLA-OFT (7B)	98.0%	99.6%	95.4%	95.4%	97.1%
VLANeXt (2.5B)	99.0%	99.2%	96.6%	94.8%	97.4%

LIBERO-plus 鲁棒性基准（Table 3）

模型	LIBERO-plus Average
OpenVLA-OFT (7B)	69.6%
VLANeXt (2.5B)	83.9%

在包含摄像头位置、光照和背景扰动的 LIBERO-plus 上，VLANeXt 以更小的参数量实现约 14% 的鲁棒性提升，验证了多视角感知、频域正则化等设计对泛化性的贡献。

真实机器人实验（Table 4）

真实世界机器人操作任务 — **图 8：真实机器人实验任务。**从左到右：单臂桌面清理（物品拾取放入容器）、单臂抽屉操作（开关+插入）、双臂篮子搬运、双臂协同清理。VLANeXt 在全部 4 项任务上超越 OpenVLA-OFT 与 π₀ 基线。

任务	成功次数（/20）
单臂桌面清理	14/20
单臂抽屉操作	11/20
双臂协同清理	11/20
双臂篮子搬运	15/20

关键消融发现

消融实验揭示了以下显著规律：（1）多视角输入是单项收益最大的感知改动（+5.8%，LIBERO-spatial）；（2）VLM 主干选择对性能影响远超策略模块结构（Qwen3-VL vs. LLaMA 差距约 10%）；（3）历史帧在当前设置下无益，这与直觉相悖，可能源于视频预训练分布与机器人数据的不匹配；（4）"where information is injected matters as much as what information is used"——本体感知注入位置对性能影响显著。

04 局限性

Note：论文无独立 Limitations 章节。以下条目：标注「明确陈述」者源自论文原文；标注「设计推断」者为从方法设计合理推断。

World modeling 代价高昂，未纳入最终模型（明确陈述）

论文明确指出，辅以未来帧预测的世界建模虽然有助于提升性能，但 "substantially higher training cost makes it less practical"，因此最终 VLANeXt 未包含此组件。这意味着世界建模带来的潜在增益被放弃以换取实用性。

历史帧有效利用问题未解决（设计推断）

Finding 7 表明添加多帧历史输入并不改善、甚至可能降低性能，但论文未深入分析根本原因，也未提出解决方案。如何让 VLA 模型有效利用时序历史信息仍是开放问题。

评估场景规模有限（设计推断）

实验主要集中于 LIBERO 系列基准和 4 类真实机器人任务，涉及的技能多样性和场景复杂度有限，泛化至更广泛真实场景的能力有待进一步验证。

数据规模效应未充分探讨（设计推断）

本文聚焦架构与训练目标的设计选择，对大规模预训练数据的影响分析较少。设计准则在数据量显著增大时是否依然成立，尚不清晰。