arXiv 2026 · 机器人 · Robotics

StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

极简架构 + 统一训练 = 强大泛化——一个受控基线,重新审视 VLA 设计选择
Jinhui Ye, Ning Gao, Senqiao Yang, Jinliang Zheng, Zixuan Wang, Yuxin Chen, Pengguang Chen, Yilun Chen, Shu Liu, Jiaya Jia  |  HKUST · SJTU · CLINK · THU · Tencent Lab · Alibaba Group · SmartMore Ltd.

VLA(Vision-Language-Action)研究领域正快速扩张,但方法之间在架构、训练数据、体现配置和 benchmark 特定工程方面差异极大,难以公平比较。StarVLA-α 提出一个刻意最小化复杂度的简洁基线,在 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四个基准上统一训练,以受控方式系统研究 VLA 设计选择,证明"强大 VLM 主干 + 最少设计"已足够强大。

arXiv · April 2026 cs.RO 27 页 📄 arXiv:2604.11757 Project / Code
VLA Vision-Language-Action 机器人操作 简化基线 action modeling LIBERO RoboChallenge 泛化能力 cross-embodiment 预训练

01 动机 Motivation

VLA 领域正高速发展,但存在严重的方法碎片化问题:不同方法在架构、训练数据、体现配置(embodiment configuration)和 benchmark 特定工程(benchmark-specific engineering)方面差异极大,导致难以判断哪些设计决策真正驱动了性能提升。

"The VLA landscape remains highly fragmented and complex: as existing approaches vary substantially in architectures, training data, embodiment configurations, and benchmark-specific engineering."
StarVLA-α overview: current VLA common practices vs StarVLA-α approach
图 1:当前 VLA 系统(左)依赖异构架构与大量 benchmark 专属工程;StarVLA-α(右)通过简单架构、极简数据处理和统一 benchmark 训练,证明"Simple but Strong"。核心发现:许多被广泛采用的复杂性设计仅提供有限的情境相关收益。
+20%单一泛化模型在 real-world RoboChallenge 上超越 π₀.₅
4个主流 benchmark 统一训练:LIBERO / SimplerEnv / RoboTwin / RoboCasa
3大核心设计轴系统评估:action modeling / robot pretraining / interface engineering
Qwen2-VL轻量级 MLP action head,无需任何 benchmark 特定工程

当前 VLA 研究的三大核心难题:

StarVLA-α 的核心假设是:通过刻意减少实验变量(confounders),可以系统地评估哪些设计选择真正有效,哪些只是特定场景下的过度工程。

02 方法 Method

StarVLA-α 建立在最小充分性(minimal-sufficiency)假设之上:强大的 VLM 配合轻量 action head,不需要任何 benchmark 专属预处理,即可学到可迁移的策略。框架在 StarVLA Community 基础设施上构建,核心组成包括:Unified I/O Interface、Compositional Framework 和 VL Foundation Models。

StarVLA-α simplified pipeline and architecture overview
图 2:StarVLA-α 整体框架。VL Foundation Model 负责从 RGB 图像和自然语言指令提取特征;Compositional Framework 将 action head 解耦为可插拔模块;Unified I/O Interface 保证推理时对不同体现(embodiment)的兼容性,无需修改核心代码。

Unified I/O Interface(统一输入输出接口)

所有框架模块从同一 VL backbone 继承,通过两种方法支持统一接口: forward(raw_images, atr, ...) 作为训练入口,接收多视角 RGB 图像、自然语言指令,并以字典形式返回 action chunk;predict_action(raw_images, atr, ...) 作为推理入口,接受归一化动作(对连续动作减均值、除单位方差)并返回预测动作。 这一设计使任何 VL Foundation Model 只要能处理 raw observations,无需额外适配即可直接接入 StarVLA-α。

Compositional Framework(组合式框架)

StarVLA-α 将策略分解为两个显式组件:VL backbone(视觉-语言表征)与 action head(动作解码)。四种代表性配置:

Four StarVLA VLA framework variants: FAST, OFT, GR00T, StarVLA-α
图 3:四种 StarVLA 框架变体(StarVLA-FAST / OFT / GR00T / StarVLA-α)共享相同的 VL backbone 和 I/O 接口,仅在 action decoding 策略上不同。这种组合式设计允许在受控条件下公平比较不同解码头。

极简数据处理(Minimal Data Processing)

为提升跨体现泛化,StarVLA-α 采用极简数据 pipeline:输入为 RGB 图像(无任何 benchmark 专属预处理),语言指令作为提示。动作归一化遵循 zero-mean、unit-variance。模型使用训练-测试对齐的 split only(不使用 history stacking 或 image augmentation),确保实验可复现性。

03 实验 Experiments

在 LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1 四大主流 benchmark 上进行统一多 benchmark 训练,使用各自官方评估协议。以 LIBERO 为例,每个任务集 10 个任务,每任务 500 次训练演示,50 次 episodes per task 评估。

LIBERO 性能对比

LIBERO benchmark results table comparing StarVLA-α with existing VLA methods
表 2:StarVLA-α 与现有 VLA 方法在 LIBERO 各任务集(Spatial、Object、Goal、Long)的性能对比。StarVLA-α 仅使用 30K steps,在 Spatial 89.4、Object 94.4、Goal 91.8、Long 87.6 的成绩(平均 90.8%)下显著优于 GR00T N1.5-score 63.5 和 85.9%。注意 StarVLA-α 在统一多 benchmark 训练下无需任何任务特定工程。
方法SpatialObjectGoalLong平均
OpenVLA-OFT (Patrick et al., 2025)77.691.376.171.679.2
GR00T N1.563.585.9
StarVLA-α (ours)89.494.491.887.690.8

SimplerEnv 性能对比

方法WidowX CleanUpWidowX SpoonGoogle VM平均
OpenVLA (Kim et al., 2024)~50.0
OpenVLA-OFT (VL+Cosmos-Predict2-2B)
StarVLA-α90.696.161.3

RoboChallenge 真实机器人对比

在公开 real-world RoboChallenge benchmark 上,单一泛化模型(StarVLA-α)以 20% 优势超越 π₀.₅。这是本文最突出的结果,表明极简设计在真实机器人部署中同样有效。

数据工程消融

Ablation study on data engineering techniques: history stacking, proprioception, relative action
表 3(节选):数据工程消融实验。在 RoboTwin 2.0 和 RoboCasa-GR1 benchmark 上评估 history stacking、proprioception inputs 和 relative actions 等常用技巧的影响。结果显示,数据特定工程在 RoboTwin 2.0 上收益有限(StarVLA-α base ≈ 90.8,+all data eng. ≈ 90.8),而在 RoboCasa-GR1 上可带来一定提升,但对于统一训练设置效果不一致。

核心发现总结

04 局限性 Limitations

说明:以下局限性综合来自论文明确陈述(stated)与设计推断(inferred),已逐条标注。
评估 benchmark 范围受限(stated)

StarVLA-α 主要在仿真 benchmark(LIBERO、SimplerEnv、RoboTwin、RoboCasa)上评估,真实机器人实验仅限于 RoboChallenge 公开榜单。仿真到真实的迁移(sim-to-real gap)问题并未系统研究。

泛化能力在分布外场景中的局限(inferred)

作者证明统一训练可以跨体现泛化,但实验设置仍局限于论文所选的四个 benchmark 内分布。对于全新物体、新场景或开放世界任务,当前框架的泛化能力尚未验证。

数据工程效果的复杂性(stated)

论文揭示数据工程技巧(history stacking、proprioception、relative actions)的效果具有高度任务和数据尺度依赖性。这意味着在新任务或新体现上,用户仍需进行 benchmark 特定的消融实验,无法直接套用"最优"配置。

仅评估有限的 action modeling 策略(inferred)

尽管比较了 FAST、OFT、GR00T 和 StarVLA-α 四种解码头,但仍未覆盖所有主流策略(如 diffusion policy、ACT 等),结论的普适性受限于所选设计空间。