机器人 · Robotics · arXiv 2025

VLA-0: Building State-of-the-Art VLAs with Zero Modification

无需架构改动,用纯文本动作表示打造顶级 Vision-Language-Action 模型
Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos  ·  NVIDIA

VLA-0 提出了一个出人意料的简单思路:将机器人连续动作归一化为整数并以空格分隔的文本输出,完全不修改 VLM 的词表、架构或解码器,即可在 LIBERO 仿真基准上超越所有同等训练数据量的方法(包括 π₀.₅-KI、OpenVLA-OFT、SmolVLA),并在真实机器人上胜过 SmolVLA 12.5 个百分点。

arXiv · 2025-10-15 LIBERO 平均成功率 94.7%(Rank 1) 真实机器人 SO-100 测试 📄 arXiv:2510.13054 PDF
VLA Vision-Language-Action 机器人操作 text action representation action ensembling LIBERO benchmark Qwen-VL-2.5 零修改微调

01 动机

当前主流的 VLA(Vision-Language-Action)构建思路普遍需要对预训练 VLM 进行非平凡的架构改动:要么新增离散 action token(discrete token VLA),要么在 VLM 之上叠加专用 generative head,要么完全重设计网络结构。这些修改不仅复杂,还会破坏 VLM 原有的语言理解与 grounding 能力。

"It restricts the resolution of the action space, since fine-grained control can require thousands of bins, which conflicts with sharing the text vocabulary; and it compromises the pretrained language understanding of the VLM by repurposing its vocabulary for actions."

作者的核心问题是:能否在完全不修改模型架构的前提下,仅通过标准的 text generation fine-tuning,构建出性能领先的 VLA?VLA-0 给出了肯定答案。

VLA-0 teaser
图 1:VLA-0 将 VLM 转化为 VLA 的核心思路示意图。通过将连续机器人动作归一化为整数并以文本形式输出,完全复用 VLM 的文本生成能力,无需任何架构修改。
94.7%LIBERO 平均成功率(无大规模预训练,Rank 1)
+12.5pts真实机器人 SO-100 上超越 SmolVLA
0架构修改数量(Zero Modification)
3B基础模型参数量(Qwen-VL-2.5-3B)

02 方法

VLA-0 的核心方法极为简洁:将 7-DOF 末端执行器的连续动作归一化到整数区间(默认 [0, 1000]),以空格分隔后作为纯文本目标,用标准的因果语言建模损失(causal language modeling)对现有 VLM 进行微调。推理时,模型自回归地输出动作整数序列,再反归一化为连续控制指令。

VLA-0 architecture
图 2(上):现有 VLA 方法分类——离散 token、generative head、自定义架构。图 3(下):VLA-0 整体架构,接收系统提示、图像与任务指令,输出以空格分隔的整数动作序列。
VLA-0 pipeline

动作文本化(Action as Text)

给定连续动作 a ∈ ℝ7,VLA-0 将每个维度线性映射至整数区间 [0, R](resolution R,默认 R=1000),并拼接成形如 "512 398 621 500 501 499 1" 的字符串作为 target token 序列。整个流程完全复用 VLM 原有词表,无需新增特殊 token 或修改 embedding。消融实验表明 R=1000 为最优精度-稳定性折衷(R=250 时性能下降 1.5%,R=4000 时下降 0.5%)。

Action Ensembling

受 diffusion policy 启发,VLA-0 在推理时维护一个滑动窗口,对多个时间步的预测动作取平均,以消除自回归模型的单步抖动。消融实验显示,关闭 ensembling 后平均成功率从 94.7% 降至 92.0%(Δ = −2.0),是全部消融因素中影响最大的一项。

Masked Action Augmentation

训练时以一定概率随机遮蔽动作文本,迫使模型学会从视觉与语言语境中预测动作,而非单纯地依赖前序动作文本做 auto-completion。去除该增强后成功率下降 1.2%(93.5%)。

多图输入(Tiled Images)

将来自多个摄像头(腕部 + 俯视)的图像拼贴为单张大图输入 VLM,无需修改 vision encoder。消融显示该策略影响较小(−0.2%),但对真实场景的泛化有帮助。

03 实验

主要在 LIBERO 仿真基准(4 个任务套件:Spatial、Object、Goal、Long)和真实机器人平台 SO-100 上评估。基础模型选用 Qwen-VL-2.5-3B(轻量高效),与 π₀.₅-KI、OpenVLA-OFT、SmolVLA、GR00T-N1 等多个 baseline 对比。评估指标为成功率(success rate)与平均排名(Avg. Rank)。

LIBERO 仿真基准(无大规模动作预训练)

方法SpatialObjectGoalLongAverageAvg. Rank
Diffusion Policy78.392.568.350.572.46.5
π₀-FAST (Paligemma)87.063.089.048.071.86.0
SmolVLA (0.24B)87.093.088.063.082.85.3
SmolVLA (2.25B)93.094.091.077.088.84.0
OpenVLA-OFT94.395.291.786.591.92.8
π₀.₅-KI96.697.294.685.893.32.3
VLA-0(本文)97.097.896.287.694.71.0

与大规模预训练方法对比

即使与使用了大规模机器人动作预训练数据的方法相比,VLA-0(无预训练,Avg. Rank 2.8)依然超越了 Octo(8.8)、OpenVLA(8.0)、π₀-FAST(6.5)、GR00T-N1(4.5)和 π₀(3.3),仅次于 OpenVLA-OFT(1.5)。

LIBERO benchmark results
图 3:LIBERO 各任务成功率对比(TABLE I)。VLA-0 在无大规模预训练的方法中排名第一,在全部方法中排名第二。

真实机器人评估(SO-100)

在四项真实机器人操作任务上,VLA-0 超越 SmolVLA 12.5 个百分点,尽管 SmolVLA 拥有专门的 SO-100 大规模预训练数据优势。这表明纯文本动作表示的泛化能力在真实场景中同样有效。

消融分析

Ablation study
图 4:消融实验结果(TABLE II)。Action Ensembling 影响最大(−2.0%),其次是 Masked Action Augmentation(−1.2%)和 Action Resolution(−1.5% at R=250)。
配置EnsembleMasked Aug.Resolution平均成功率Δ
完整 VLA-0100094.70.0
去掉 Ensemble100092.0−2.0
去掉 Masked Aug.100093.5−1.2
降低 Resolution25093.2−1.5
提高 Resolution400094.2−0.5
去掉 Tiled Images100094.5−0.2

04 局限性

说明:以下局限性均为论文作者明确指出的内容(stated),部分附有 inferred 标注。
推理速度偏低(stated)

VLA-0 当前在 RTX 5090 GPU 上的推理频率仅为约 4 Hz,低于部分专用 VLA 方法。作者指出未来可通过量化(quantization)和蒸馏(distillation)等优化手段提升推理速度,但目前尚未完成。

未探索大规模动作预训练(stated)

论文仅评估了在 LIBERO 同等数据量下的性能,未实验 VLA-0 结合大规模跨实体机器人数据集(如 OpenX-Embodiment)预训练后的效果。作者将此列为重要的未来研究方向:"A key area to explore is how VLA-0 would perform when trained with large-scale action data."

Long-Horizon 任务仍有差距(inferred)

在 LIBERO-Long 子集(最长任务序列)上,VLA-0 成功率为 87.6%,低于其他三个子集(Spatial 97.0%、Object 97.8%、Goal 96.2%),且与使用大规模预训练的 OpenVLA-OFT(94.5%)相比仍有差距。这可能反映文本自回归方式在长序列动作累积误差上的固有挑战(inferred)。