StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

01 动机 Motivation

VLA 领域正高速发展，但存在严重的方法碎片化问题：不同方法在架构、训练数据、体现配置（embodiment configuration）和 benchmark 特定工程（benchmark-specific engineering）方面差异极大，导致难以判断哪些设计决策真正驱动了性能提升。

"The VLA landscape remains highly fragmented and complex: as existing approaches vary substantially in architectures, training data, embodiment configurations, and benchmark-specific engineering."

StarVLA-α overview: current VLA common practices vs StarVLA-α approach — 图 1：当前 VLA 系统（左）依赖异构架构与大量 benchmark 专属工程；StarVLA-α（右）通过简单架构、极简数据处理和统一 benchmark 训练，证明"Simple but Strong"。核心发现：许多被广泛采用的复杂性设计仅提供有限的情境相关收益。

+20%单一泛化模型在 real-world RoboChallenge 上超越 π₀.₅

4个主流 benchmark 统一训练：LIBERO / SimplerEnv / RoboTwin / RoboCasa

3大核心设计轴系统评估：action modeling / robot pretraining / interface engineering

Qwen2-VL轻量级 MLP action head，无需任何 benchmark 特定工程

当前 VLA 研究的三大核心难题：

设计混淆（Confounders）：不同方法同时改变多个因素，无法分离各因素对性能的独立贡献。
Benchmark 特定适配：为某个 benchmark 定制的优化技巧，在其他 benchmark 或真实机器人上往往失效。
再现性差：训练设置、数据来源、评估协议各异，使横向比较几乎不可能。

StarVLA-α 的核心假设是：通过刻意减少实验变量（confounders），可以系统地评估哪些设计选择真正有效，哪些只是特定场景下的过度工程。

02 方法 Method

StarVLA-α 建立在最小充分性（minimal-sufficiency）假设之上：强大的 VLM 配合轻量 action head，不需要任何 benchmark 专属预处理，即可学到可迁移的策略。框架在 StarVLA Community 基础设施上构建，核心组成包括：Unified I/O Interface、Compositional Framework 和 VL Foundation Models。

StarVLA-α simplified pipeline and architecture overview — 图 2：StarVLA-α 整体框架。VL Foundation Model 负责从 RGB 图像和自然语言指令提取特征；Compositional Framework 将 action head 解耦为可插拔模块；Unified I/O Interface 保证推理时对不同体现（embodiment）的兼容性，无需修改核心代码。

Unified I/O Interface（统一输入输出接口）

所有框架模块从同一 VL backbone 继承，通过两种方法支持统一接口： forward(raw_images, atr, ...) 作为训练入口，接收多视角 RGB 图像、自然语言指令，并以字典形式返回 action chunk；predict_action(raw_images, atr, ...) 作为推理入口，接受归一化动作（对连续动作减均值、除单位方差）并返回预测动作。这一设计使任何 VL Foundation Model 只要能处理 raw observations，无需额外适配即可直接接入 StarVLA-α。

Compositional Framework（组合式框架）

StarVLA-α 将策略分解为两个显式组件：VL backbone（视觉-语言表征）与 action head（动作解码）。四种代表性配置：

StarVLA-FAST：在 VL backbone 后追加 FAST tokenizer（Patrick et al., 2025）进行离散动作预测；
StarVLA-OFT：使用轻量 MLP head 做直接连续动作回归（τ-style）；
StarVLA-GR00T：整合层级式跨帧 cross-DiT action expert，专为连续操作；
StarVLA-α（主要基线）：在 System 1 类 flow-matching 解码器上构建，以 VL backbone 隐状态为条件，在多个基准上表现最为一致。

Four StarVLA VLA framework variants: FAST, OFT, GR00T, StarVLA-α — 图 3：四种 StarVLA 框架变体（StarVLA-FAST / OFT / GR00T / StarVLA-α）共享相同的 VL backbone 和 I/O 接口，仅在 action decoding 策略上不同。这种组合式设计允许在受控条件下公平比较不同解码头。

极简数据处理（Minimal Data Processing）

为提升跨体现泛化，StarVLA-α 采用极简数据 pipeline：输入为 RGB 图像（无任何 benchmark 专属预处理），语言指令作为提示。动作归一化遵循 zero-mean、unit-variance。模型使用训练-测试对齐的 split only（不使用 history stacking 或 image augmentation），确保实验可复现性。

03 实验 Experiments

在 LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1 四大主流 benchmark 上进行统一多 benchmark 训练，使用各自官方评估协议。以 LIBERO 为例，每个任务集 10 个任务，每任务 500 次训练演示，50 次 episodes per task 评估。

LIBERO 性能对比

LIBERO benchmark results table comparing StarVLA-α with existing VLA methods — 表 2：StarVLA-α 与现有 VLA 方法在 LIBERO 各任务集（Spatial、Object、Goal、Long）的性能对比。StarVLA-α 仅使用 30K steps，在 Spatial 89.4、Object 94.4、Goal 91.8、Long 87.6 的成绩（平均 90.8%）下显著优于 GR00T N1.5-score 63.5 和 85.9%。注意 StarVLA-α 在统一多 benchmark 训练下无需任何任务特定工程。

方法	Spatial	Object	Goal	Long	平均
OpenVLA-OFT (Patrick et al., 2025)	77.6	91.3	76.1	71.6	79.2
GR00T N1.5	63.5	85.9	—	—	—
StarVLA-α (ours)	89.4	94.4	91.8	87.6	90.8

SimplerEnv 性能对比

方法	WidowX CleanUp	WidowX Spoon	Google VM	平均
OpenVLA (Kim et al., 2024)	—	—	—	~50.0
OpenVLA-OFT (VL+Cosmos-Predict2-2B)	—	—	—	—
StarVLA-α	90.6	96.1	61.3	—

RoboChallenge 真实机器人对比

在公开 real-world RoboChallenge benchmark 上，单一泛化模型（StarVLA-α）以 20% 优势超越 π₀.₅。这是本文最突出的结果，表明极简设计在真实机器人部署中同样有效。

数据工程消融

Ablation study on data engineering techniques: history stacking, proprioception, relative action — 表 3（节选）：数据工程消融实验。在 RoboTwin 2.0 和 RoboCasa-GR1 benchmark 上评估 history stacking、proprioception inputs 和 relative actions 等常用技巧的影响。结果显示，数据特定工程在 RoboTwin 2.0 上收益有限（StarVLA-α base ≈ 90.8，+all data eng. ≈ 90.8），而在 RoboCasa-GR1 上可带来一定提升，但对于统一训练设置效果不一致。

核心发现总结

跨多 benchmark 统一训练，同一极简基线仍高度竞争，不依赖额外架构复杂度或工程技巧。
Action-specific robot pretraining 通过整合大规模机器人数据（如 pi-data）可带来提升，但领域对齐数据的质量比数量更关键。
数据工程技巧（history stacking、proprioception、relative actions）提供的增益呈现任务/数据尺度依赖性，在统一 benchmark 训练设置下收益往往有限。
架构和流水线复杂度（auxiliary inputs、复杂 action 表示、多阶段训练）提供的收益小于预期，常常是 context-dependent 而非普适的。

04 局限性 Limitations

说明：以下局限性综合来自论文明确陈述（stated）与设计推断（inferred），已逐条标注。

评估 benchmark 范围受限（stated）

StarVLA-α 主要在仿真 benchmark（LIBERO、SimplerEnv、RoboTwin、RoboCasa）上评估，真实机器人实验仅限于 RoboChallenge 公开榜单。仿真到真实的迁移（sim-to-real gap）问题并未系统研究。

泛化能力在分布外场景中的局限（inferred）

作者证明统一训练可以跨体现泛化，但实验设置仍局限于论文所选的四个 benchmark 内分布。对于全新物体、新场景或开放世界任务，当前框架的泛化能力尚未验证。

数据工程效果的复杂性（stated）

论文揭示数据工程技巧（history stacking、proprioception、relative actions）的效果具有高度任务和数据尺度依赖性。这意味着在新任务或新体现上，用户仍需进行 benchmark 特定的消融实验，无法直接套用"最优"配置。

仅评估有限的 action modeling 策略（inferred）

尽管比较了 FAST、OFT、GR00T 和 StarVLA-α 四种解码头，但仍未覆盖所有主流策略（如 diffusion policy、ACT 等），结论的普适性受限于所选设计空间。