机器人 · Robotics  |  arXiv 2026

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

像搭积木一样构建 VLA 模型的开源统一研究框架
StarVLA Community  ·  Von Neumann Institute, HKUST

具身智能研究中 VLA 方法繁多、框架各异、评测不统一,导致比较和复现极为困难。 StarVLA 提出一套模块化的 backbone–action head 架构,将骨干网络(VLM 或世界模型)与动作解码头解耦, 并通过统一 I/O 接口接入 LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K 五大评测基准, 实现了"换 backbone、换动作头"均无需改动训练/推理主干代码的灵活组合。

arXiv · April 2026 9 pages 开源框架 / Open-source 📄 arXiv:2604.05014 GitHub: starVLA/starVLA
VLA Vision-Language-Action 模块化框架 embodied AI 机器人操作 LIBERO flow matching behavior cloning cross-embodiment benchmark integration

01 动机

当前 VLA 研究面临严重的"碎片化"问题:现有方法在模型结构、训练流程和推理假设上差异显著, 导致跨方法的系统比较几乎不可能,使得"究竟是数据、架构还是训练技巧带来的提升"难以厘清。

"We attribute this fragmentation to the lack of a unified abstraction for VLA systems. Existing codebases are largely method-specific and do not support (i) modular composition across action-decoding paradigms, (ii) reusable training approaches across heterogeneous data sources, or (iii) standardized evaluation and deployment across benchmarks and embodiments."
Figure 1: Unified VLA Policy Conceptual Diagram
图 1:StarVLA 统一 VLA 策略示意。 策略 π 以多模态观测历史 x≤t 和语言指令 为输入,输出动作序列 at:t+k 及辅助输出 yaux。 训练目标分解为 ℒ = ℒaction + ℒaux, 将动作预测损失与语言/视觉辅助监督解耦,使不同范式的 VLA 方法均可在同一接口下实例化。
5集成主流评测基准数量
4支持的动作解码范式
30K训练步数即可媲美竞品 175K+ 步
2,200256 GPU 下最大样本吞吐量(samples/s)

02 方法

StarVLA 的核心是 backbone–action head 双向模块化:骨干网络(VLM 或世界模型)与动作解码头 各自遵守统一的 I/O 协议,可独立替换而不影响另一侧。训练、推理与部署共用同一套代码, 配置通过 YAML 声明式指定。

统一抽象:Unified VLA Policy

策略被形式化为 π(at:t+k, yaux | x≤t, ℓ), 将多模态观测历史映射到 k 步动作序列。训练损失为 ℒ = ℒaction + ℒaux, 其中 aux 作为归纳偏置,可为零(纯行为克隆)或语言对齐/空间感知损失。 不同 VLA 范式均可理解为该公式在不同归纳偏置下的实例化。

Figure 2: Four Action-Decoding Variants
图 2:四种代表性动作解码范式。 StarVLA-FAST:自回归生成离散动作 token(基于 FAST tokenizer); StarVLA-OFT:通过轻量 MLP 直接回归连续动作; StarVLA-π (π₀):flow matching 迭代去噪; StarVLA-GR00T:双系统推理(System 1 快速反应 + System 2 慢速规划)。 四种变体共享相同的训练/推理接口,仅动作头实现不同。

统一 I/O 接口与 Server-Client 评测

StarVLA 为所有框架组件定义了两个核心方法:forward(raw_images, str, ...) 作为训练入口, predict_action(raw_images, str, ...) 作为推理入口。 推理接口接受"归一化动作(均值=0,标准差=1)"并返回预测动作块(minus ground-truth 均值后的预测)。 这一设计与真实机器人传感器流镜像对应,使同一 checkpoint 可直接用于仿真评测和真实部署, 无需修改代码。评测基准代码通过 server-client 模式与模型推理解耦,benchmark 代码无需感知模型内部。

Figure 3: Unified System Pipeline
图 3:StarVLA 统一系统流水线。 左侧:统一数据流,连接异构机器人数据集、pluggable dataloader 与标准化数据表示; 右侧:模型前向传播路径,VL Foundation Model 骨干网络经 action head 输出动作, 再经 Server-Client 接口用于仿真评测(LIBERO、SimplerEnv、RoboTwin 等)和真实机器人部署。 整个流水线由 YAML 配置驱动,支持 Unified Hamiltonians、Co-train 和 Multi-Bench 训练策略。

灵活训练范式

监督行为克隆(SFT)

最直接的训练方式,aux = 0,仅优化动作预测损失。 StarVLA 将此作为建立单基准可复现基线的标准起点, 并提供了 benchmark 特定的训练/评测脚本。

多目标协同训练(Co-training)

在动作预测的同时引入 VLM 辅助目标(如空间感知 grounding 损失), 保留模型的语言/视觉推理能力。 实验表明,空间引导协同训练可将 Google Robot 成功率从 66.1% 提升至 86.2%, 同时维持 RefCOCO-g 上 71.2 IoU@0.5 的空间感知精度。

跨体态训练(Cross-embodiment)

通过 mixture dataloader 混合来自不同机器人平台的数据, 训练单一泛化模型,实现跨 LIBERO、SimplerEnv、RoboTwin、RoboCasa-GR1 的联合训练。

强化学习微调(RL fine-tuning)

计划中的功能,目前仍在持续集成中("an ongoing integration effort",论文明确说明)。

03 实验

StarVLA 在五大主流仿真评测基准上报告了单基准专家模型(Specialist)和跨基准泛化模型(Generalist)的性能, 所有结果均基于官方评测协议,以最终任务成功率为主要指标。

单基准专家模型(Specialist)性能

Benchmark最佳变体StarVLA 得分说明
LIBERO(4 suites 平均) StarVLA-OFT 96.6% 仅 30K 训练步,媲美竞品 175K+ 步
SimplerEnv WidowX StarVLA-GR00T 65.3% success rate
RoboCasa-GR1(平均) StarVLA-OFT 48.8% average success rate
RoboTwin 2.0 clean StarVLA-GR00T 88.0% clean setting
RoboTwin 2.0 random StarVLA-GR00T 88.5% random setting

泛化模型(Generalist)vs 专家模型对比

跨 LIBERO、SimplerEnv、RoboTwin 和 RoboCasa-GR1 联合训练的单一泛化模型:

BenchmarkSpecialistGeneralist差距
LIBERO(平均) 98.8% 97.8% -1.0%
RoboCasa-GR1(平均) 48.8% 57.3% +8.5%(泛化反超!)
Table 2: LIBERO Results
表 2:LIBERO 基准各变体详细结果。 StarVLA 各变体(FAST、OFT、π、GR00T)在 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long 四个子集上的成功率, 与已发布的强基线进行对比。StarVLA-OFT 在平均成功率上达到 96.6%, 训练开销显著低于竞争对手(30K 步 vs. 175K+ 步)。

计算效率与多节点扩展

单节点(8×A100)测试:batch size 16 时每步 0.703 秒(72.2 samples/s); batch size 192 时每步 2.404 秒(79.9 samples/s);GPU 利用率 74–96%。 多节点扩展(最高 256 GPU):单步延迟在 32 GPU 以上趋于饱和(约 0.93 秒/步); 样本吞吐量从 87 samples/s 线性扩展至 2,200 samples/s; 并行效率在 32 GPU 以上稳定于约 79–80%。

04 局限性

说明:以下局限性部分为作者在论文中明确陈述(标注"stated"), 部分为从系统设计中推断(标注"inferred")。
RL 微调尚未完成集成(stated)

论文明确指出强化学习微调是"an ongoing integration effort",当前版本不支持端到端 RL 训练。 这意味着在需要在线环境交互优化的任务上,StarVLA 目前仍仅限于离线行为克隆范式。

跨基准泛化模型在部分任务上略弱于专家模型(stated)

Generalist 模型在 LIBERO 上比 Specialist 低约 1.0%(97.8% vs 98.8%), 表明"all-in-one 多基准训练"可行但仍存在小幅性能折损, 尤其在各基准数据分布差异较大时。

多节点扩展存在通信开销(stated)

在 8–32 GPU 区间,多节点通信开销显著,导致扩展效率低于线性。 32 GPU 以上每步延迟趋于平稳,但并行效率稳定在 79–80%, 意味着约 20% 的计算资源消耗在通信同步上。

真实机器人验证有限(inferred)

论文的实验结果均来自仿真环境(LIBERO、SimplerEnv、RoboTwin 等), 对真实机器人的验证仅限于部署接口设计层面的讨论, 缺乏大规模真实场景的定量评测。sim-to-real 转移能力尚未系统验证。

评测基准覆盖以操作任务为主(inferred)

当前集成的五大基准(LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K) 侧重桌面操作和室内场景,移动操作、户外导航等任务尚未纳入统一评测框架。