SimVLA: A Simple VLA Baseline for Robotic Manipulation

01 动机

VLA 领域快速发展，新方法不断引入空间先验、多视角感知、复杂 action representation 等创新，但这些进展往往伴随着不同的训练 recipe 和实现细节。这使得研究者难以区分"是架构创新带来了提升，还是训练技巧的差异"。

"These advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains."

SimVLA 的核心主张是：一个经过精心规范化的极简设计，足以达到当前最优水平。它为未来的架构创新提供了一个透明、可复现的参考基线，使研究者能够将性能归因于具体的架构改进，而非隐藏的训练技巧。

Real robot tasks — **图 1：真实机器人的开箱即用任务示例。**SimVLA 无需任何额外微调，在 held-out 场景中直接部署，评估一系列同时需要灵巧操作与语义理解的多阶段任务。（原文 Figure 1 caption）

98.6%LIBERO 平均成功率

0.5B模型参数量

9.3 GB训练所需 VRAM

95.8%SimplerEnv WidowX 均值

02 方法

SimVLA 是一个模块化的极简 VLA 框架：将预训练 VLM 作为感知编码器，以轻量 Transformer action head 执行 conditional flow matching，生成连续的 action chunk。整体流程遵循"encode-once, denoise-in-the-head"原则，每个控制步骤 VLM backbone 仅运行一次。

SimVLA overview architecture — **图 2：SimVLA 整体架构。**VLM encoder 每个控制步骤执行一次，将多视角 RGB 图像与语言指令融合为 token 表示；轻量 action transformer 通过 flow-matching 去噪生成连续 action chunk。（原文 Figure 2 caption）

感知解耦：VLM Backbone Encoder

SimVLA 使用预训练的 vision-language backbone（默认为 InternVL2-2B，约 0.5B 有效参数）处理多视角 RGB 图像与语言任务指令，输出融合的视觉-语言 token 表示。感知模块与控制模块严格解耦，VLM 学习率乘子默认设为 0.1，以保护预训练权重。

控制头：Conditional Flow Matching Action Head

控制头是一个轻量 vanilla Transformer encoder，接收 VLM 输出的 token 与噪声 action，通过 conditional flow matching 学习将噪声映射为连续 action chunk（动作序列长度 H 测试范围：{10, 20, 30}）。推理时在 action head 内高效去噪，无需逐步调用 VLM。

"Silent" 训练动态——被低估的关键因素

SimVLA 的核心贡献之一是识别并规范化了若干训练中的隐性变量（"silent" training dynamics），这些因素对性能的影响甚至超过了架构选择：

Action Normalization：基于训练数据逐维度统计计算归一化参数，缺失时平均成功率从 98.6% 骤降至 12.3%。
Data Shuffling：对优化稳定性和长时序泛化至关重要，禁用后平均成功率降至 9.9%。
Learning Rate Tuning：全局学习率测试范围 {5×10⁻⁵, 10⁻⁴, 2×10⁻⁴, 5×10⁻⁴}；设为 5×10⁻⁴ 时均值降至 72.7%。
VLM LR Multiplier：默认 0.1；若设为 1.0（即与主干同速更新），成功率骤降至 44.2%。

03 实验

实验在三类基准上评估：仿真基准 LIBERO（含 Spatial / Object / Goal / Long 四个子任务集）与 LIBERO-PRO（鲁棒性评估）、SimplerEnv（WidowX 与 Google Robot）、以及 Galaxea R1 Lite 真实机械臂上的八项多阶段任务。

LIBERO 仿真基准

模型	参数量	Spatial	Object	Goal	Long	平均
OpenVLA-OFT	7B	97.6%	98.4%	97.9%	94.5%	97.1%
π₀.₅	3B	98.8%	98.2%	98.0%	92.4%	96.9%
VLA-Adapter	0.5B	97.8%	99.2%	97.2%	95.0%	97.3%
SimVLA	0.5B	99.6%	99.8%	98.6%	96.4%	98.6%

SimplerEnv 仿真基准

平台	模型	平均成功率
WidowX	MemoryVLA	71.9%
WidowX	FPC-VLA	64.6%
WidowX	SimVLA	95.8%
Google Robot	SpatialVLA	67.5%
Google Robot	RT-2-X	65.6%
Google Robot	ThinkAct	65.1%
Google Robot	X-VLA	75.7%
Google Robot	SimVLA	76.1%

显存效率对比

模型	参数量	LIBERO 平均	VRAM (GB)
OpenVLA-OFT	7B	97.1%	62.0
π₀.₅	3B	96.9%	51.3
VLA-Adapter	0.5B	97.3%	24.7
SimVLA	0.5B	98.6%	9.3

真实机器人零样本结果（Galaxea R1 Lite）

Real robot zero-shot results — **图 3：Galaxea R1 Lite 上的真实机器人零样本结果。**SimVLA 在 held-out 场景上直接部署，无需额外微调，评估八项多阶段操作任务，总体性能与 π₀.₅ 基线相当。（原文 Figure 3 caption）

八项评估任务包括：整理玩偶（store dolls）、排列鸡蛋（arrange eggs）、插花（put flowers in vase）、放笔（put pen in holder）、擦桌面（wipe desktop）、折叠衣物（fold clothes）、捡垃圾（pick up garbage）、开抽屉（open drawer）。大多数任务在零样本跨场景设置下取得约 80% 的成功率。

消融实验

消融分析将每项因素独立移除后在 LIBERO 上评估，揭示了哪些是决定性因素、哪些影响有限：

消融项	LIBERO 平均成功率	变化
完整 SimVLA（基准）	98.6%	—
禁用 data shuffling	9.9%	−88.7%
禁用 action normalization	12.3%	−86.3%
学习率 5×10⁻⁴	72.7%	−25.9%
VLM LR 乘子 = 1.0	44.2%	−54.4%
Cross-attention（替换 token concat）	91.5%	−7.1%
Conditional AdaLN injection	91.1%	−7.5%
Florence-2 backbone	97.7%	−0.9%
缩小 Action Transformer 规模	98.0%	−0.6%

消融结果显示：data shuffling 和 action normalization 是最关键的因素，禁用任意一项都会导致性能崩溃至接近 10%。相比之下，架构细节（如 action transformer 规模、backbone 选型）的影响相对次要，充分支持了"训练动态比架构创新更重要"的核心论点。

04 局限性

注：论文未设专门的 Limitations 章节。以下条目中，标注"原文陈述"者来自论文正文；标注"设计推断"者为基于方法设计的合理推断。

位置鲁棒性不足（原文陈述）

在 LIBERO-PRO 的位置扰动评估中，SimVLA 在 Object、Goal、Long 子任务集上的位置鲁棒性较差，论文指出这是"a key direction for future work"，需要额外研究。语义鲁棒性（98–100%）表现优异，但空间布局扰动场景仍然是挑战。

部分真实任务仍具挑战性（原文陈述）

在 Galaxea R1 Lite 的零样本跨场景评估中，折叠衣物（fold clothes）、放笔（put pen in holder）、插花（put flowers in vase）等任务成功率相对较低，说明在无微调的情况下，细粒度操作与长时序任务仍有提升空间。

训练数据规模与多样性依赖（设计推断）

SimVLA 的强性能高度依赖于规范化的训练细节（data shuffling、action normalization）和学习率配置，这些超参数可能需要针对不同数据集和任务重新调优。论文中的实验基于固定数据源，对于数据规模极小或分布迥异的场景，其鲁棒性尚未验证。

单机器人形态评估（设计推断）

所有真实机器人实验均在 Galaxea R1 Lite 上进行，尚未在不同机器人形态（如双臂、移动底座等）上系统验证跨形态迁移能力。