具身智能研究中 VLA 方法繁多、框架各异、评测不统一,导致比较和复现极为困难。 StarVLA 提出一套模块化的 backbone–action head 架构,将骨干网络(VLM 或世界模型)与动作解码头解耦, 并通过统一 I/O 接口接入 LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K 五大评测基准, 实现了"换 backbone、换动作头"均无需改动训练/推理主干代码的灵活组合。
当前 VLA 研究面临严重的"碎片化"问题:现有方法在模型结构、训练流程和推理假设上差异显著, 导致跨方法的系统比较几乎不可能,使得"究竟是数据、架构还是训练技巧带来的提升"难以厘清。
"We attribute this fragmentation to the lack of a unified abstraction for VLA systems. Existing codebases are largely method-specific and do not support (i) modular composition across action-decoding paradigms, (ii) reusable training approaches across heterogeneous data sources, or (iii) standardized evaluation and deployment across benchmarks and embodiments."
StarVLA 的核心是 backbone–action head 双向模块化:骨干网络(VLM 或世界模型)与动作解码头 各自遵守统一的 I/O 协议,可独立替换而不影响另一侧。训练、推理与部署共用同一套代码, 配置通过 YAML 声明式指定。
策略被形式化为 π(at:t+k, yaux | x≤t, ℓ), 将多模态观测历史映射到 k 步动作序列。训练损失为 ℒ = ℒaction + ℒaux, 其中 ℒaux 作为归纳偏置,可为零(纯行为克隆)或语言对齐/空间感知损失。 不同 VLA 范式均可理解为该公式在不同归纳偏置下的实例化。
StarVLA 为所有框架组件定义了两个核心方法:forward(raw_images, str, ...) 作为训练入口,
predict_action(raw_images, str, ...) 作为推理入口。
推理接口接受"归一化动作(均值=0,标准差=1)"并返回预测动作块(minus ground-truth 均值后的预测)。
这一设计与真实机器人传感器流镜像对应,使同一 checkpoint 可直接用于仿真评测和真实部署,
无需修改代码。评测基准代码通过 server-client 模式与模型推理解耦,benchmark 代码无需感知模型内部。
最直接的训练方式,ℒaux = 0,仅优化动作预测损失。 StarVLA 将此作为建立单基准可复现基线的标准起点, 并提供了 benchmark 特定的训练/评测脚本。
在动作预测的同时引入 VLM 辅助目标(如空间感知 grounding 损失), 保留模型的语言/视觉推理能力。 实验表明,空间引导协同训练可将 Google Robot 成功率从 66.1% 提升至 86.2%, 同时维持 RefCOCO-g 上 71.2 IoU@0.5 的空间感知精度。
通过 mixture dataloader 混合来自不同机器人平台的数据, 训练单一泛化模型,实现跨 LIBERO、SimplerEnv、RoboTwin、RoboCasa-GR1 的联合训练。
计划中的功能,目前仍在持续集成中("an ongoing integration effort",论文明确说明)。
StarVLA 在五大主流仿真评测基准上报告了单基准专家模型(Specialist)和跨基准泛化模型(Generalist)的性能, 所有结果均基于官方评测协议,以最终任务成功率为主要指标。
| Benchmark | 最佳变体 | StarVLA 得分 | 说明 |
|---|---|---|---|
| LIBERO(4 suites 平均) | StarVLA-OFT | 96.6% | 仅 30K 训练步,媲美竞品 175K+ 步 |
| SimplerEnv WidowX | StarVLA-GR00T | 65.3% | success rate |
| RoboCasa-GR1(平均) | StarVLA-OFT | 48.8% | average success rate |
| RoboTwin 2.0 clean | StarVLA-GR00T | 88.0% | clean setting |
| RoboTwin 2.0 random | StarVLA-GR00T | 88.5% | random setting |
跨 LIBERO、SimplerEnv、RoboTwin 和 RoboCasa-GR1 联合训练的单一泛化模型:
| Benchmark | Specialist | Generalist | 差距 |
|---|---|---|---|
| LIBERO(平均) | 98.8% | 97.8% | -1.0% |
| RoboCasa-GR1(平均) | 48.8% | 57.3% | +8.5%(泛化反超!) |
单节点(8×A100)测试:batch size 16 时每步 0.703 秒(72.2 samples/s); batch size 192 时每步 2.404 秒(79.9 samples/s);GPU 利用率 74–96%。 多节点扩展(最高 256 GPU):单步延迟在 32 GPU 以上趋于饱和(约 0.93 秒/步); 样本吞吐量从 87 samples/s 线性扩展至 2,200 samples/s; 并行效率在 32 GPU 以上稳定于约 79–80%。
论文明确指出强化学习微调是"an ongoing integration effort",当前版本不支持端到端 RL 训练。 这意味着在需要在线环境交互优化的任务上,StarVLA 目前仍仅限于离线行为克隆范式。
Generalist 模型在 LIBERO 上比 Specialist 低约 1.0%(97.8% vs 98.8%), 表明"all-in-one 多基准训练"可行但仍存在小幅性能折损, 尤其在各基准数据分布差异较大时。
在 8–32 GPU 区间,多节点通信开销显著,导致扩展效率低于线性。 32 GPU 以上每步延迟趋于平稳,但并行效率稳定在 79–80%, 意味着约 20% 的计算资源消耗在通信同步上。
论文的实验结果均来自仿真环境(LIBERO、SimplerEnv、RoboTwin 等), 对真实机器人的验证仅限于部署接口设计层面的讨论, 缺乏大规模真实场景的定量评测。sim-to-real 转移能力尚未系统验证。
当前集成的五大基准(LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K) 侧重桌面操作和室内场景,移动操作、户外导航等任务尚未纳入统一评测框架。