机器人 · Robotics · arXiv 2026

A Pragmatic VLA Foundation Model

LingBot-VLA:大规模真实数据驱动的双臂机器人 VLA 基础模型
Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng

LingBot-VLA 在约 2 万小时来自 9 种双臂机器人配置的真实世界遥操作数据上预训练,采用 Mixture-of-Transformers 架构与 Flow Matching 动作预测,在 GM-100 百任务真实基准上以 17.30% SR / 35.41% PS 超越 π₀.₅,同时训练吞吐量提升 1.5–2.8 倍。

双臂机器人 · 9 平台 ~20,000 小时真实数据 GM-100 百任务基准 📄 arXiv:2601.18692 PDF
VLA vision-language-action 双臂机器人 imitation learning flow matching scaling law 基础模型 机器人操作 Mixture-of-Transformers 数据扩展

01 动机

当前 VLA 模型面临两大核心挑战:数据规模不足训练效率低下。大多数方法仅在数千小时数据上训练,且缺乏能在海量数据上高效扩展的训练框架,难以验证真正意义上的 scaling law。LingBot-VLA 的目标是构建一个务实可用的 VLA 基础模型——覆盖 9 种真实双臂机器人、2 万小时遥操作数据,并在 100 项任务的标准化基准上与主流方法直接对比。

"We present LingBot-VLA, a vision-language-action system trained on around 20,000 hours of real-world data from 9 popular dual-arm robot configurations."
LingBot-VLA overview
图1:LingBot-VLA 总览。左侧展示数据采集所用的 9 种双臂机器人平台(共约 2 万小时),中间为 Mixture-of-Transformers 模型架构,右侧为跨平台的 GM-100 百任务实体评测结果。
~20,000h真实遥操作预训练数据
9种双臂机器人平台
+4.28%平均 SR 超越 π₀.₅(GM-100)
261samples/s(8-GPU 训练吞吐)

02 方法

LingBot-VLA 以 Qwen2.5-VL 为视觉语言骨干,引入独立的"action expert"模块,通过 Mixture-of-Transformers (MoT) 框架将视觉语言与动作两条通路解耦,再经共享 self-attention 机制耦合;动作输出采用 Flow Matching 预测 50-token 动作块;深度信息通过 vision distillation 蒸馏融入,进一步提升空间感知能力。

Pre-training dataset visualization
图2:LingBot-VLA 预训练数据集可视化。9 种机器人平台的视觉观测示例,涵盖多样化的操作场景与任务类型;标注流程先由人工标注员将视频分解为原子动作,再由 Qwen3-VL-235B 自动生成语言指令。

Mixture-of-Transformers (MoT) 架构

视觉语言路径与动作路径各自拥有独立的 Transformer 层(MLP、layer norm 等),通过 blockwise causal attention 实现模态间解耦:观测块与动作 token 分别处理,避免跨模态梯度干扰。共享的 self-attention 则保证两条路径能够互通信息,实现高效的跨模态对齐。输入观测包含三视角 RGB-D 图像、自然语言任务指令和机器人本体感知状态。

Flow Matching 动作预测 + Vision Distillation

动作头采用 Flow Matching 对连续动作分布建模,每次预测 50-token 的动作序列块,支持快速推理。深度感知模块以可学习 query 与深度 token 对齐,并引入蒸馏损失(distillation loss)将专用深度模型的空间感知能力迁移至视觉骨干,无需推理时额外调用独立深度模型。训练效率优化包括:Fully Sharded Data Parallel (FSDP)、针对 action expert 的 shard 分组(减少通信开销)、bfloat16 存储 + float32 规约的混合精度策略、FlexAttention 稀疏多模态注意力,以及 torch.compile 算子融合——最终实现 GPU 数量从 8 到 256 的近线性吞吐扩展。

03 实验

实验分为三部分:(1) GM-100 大规模真实世界基准——在 3 种机器人平台上各评测 100 项任务,指标为 Success Rate (SR) 和 Progress Score (PS);(2) RoboTwin 2.0 仿真基准——干净场景与随机化场景;(3) 训练吞吐量分析。基线方法包括 WALL-OSS、GR00T N1.6 和 π₀.₅。

GM-100 真实世界基准(Table 1)

平台方法SR (%)PS (%)
Agibot G1WALL-OSS2.998.75
Agibot G1GR00T N1.65.2312.63
Agibot G1π₀.₅7.7721.98
Agibot G1LingBot w/o depth12.8230.04
Agibot G1LingBot w/ depth11.9830.47
AgileXWALL-OSS2.268.16
AgileXGR00T N1.63.2610.52
AgileXπ₀.₅17.2034.82
AgileXLingBot w/o depth15.5036.31
AgileXLingBot w/ depth18.9340.36
Galaxea R1ProWALL-OSS6.8914.13
Galaxea R1ProGR00T N1.614.2924.83
Galaxea R1Proπ₀.₅14.1026.14
Galaxea R1ProLingBot w/o depth18.8934.71
Galaxea R1ProLingBot w/ depth20.9835.40
平均LingBot w/ depth17.3035.41

LingBot-VLA 平均 SR 超越 π₀.₅ 4.28%,平均 PS 超越 7.76%

RoboTwin 2.0 仿真基准(Table 2)

场景π₀.₅ SR (%)LingBot w/o depth SR (%)LingBot w/ depth SR (%)
干净场景 (Clean)82.7486.5088.56
随机化场景 (Randomized)76.7685.3486.68

Scaling Law 与数据效率

Pre-training data scaling law
图5:预训练数据规模扩展实验。从 3,000 小时到 20,000 小时,Success Rate 和 Progress Rate 均呈现持续上升趋势,且"no signs of saturation"——说明更多数据仍有提升空间,scaling law 在多个平台上均成立。
Post-training data efficiency
图6:后训练数据效率分析。仅用 80 个 demonstrations(相比 π₀.₅ 的完整 130 个)时,LingBot-VLA 在 SR 和 PS 上均超越使用全部数据的 π₀.₅,且两者性能差距随后训练数据量增加而显著拉大。

训练吞吐量(Ablation)

基于 Qwen2.5-VL-3B-π 骨干,优化后的训练框架在 8-GPU 配置下达到 261 samples/second,较现有 VLA 专用代码库实现 1.5∼2.8× 提速。GPU 从 8 到 256 扩展时吞吐量近线性增长,验证了框架的大规模训练可行性。关键优化手段包括 FSDP 分布式训练、FlexAttention 稀疏注意力、torch.compile 算子融合及 bfloat16 混合精度。

04 局限性

Note:论文未设专门的 Limitations 节;以下第 1 条为作者在正文中明确指出的问题,第 2、3 条为基于设计推断(inferred from the design)。
仅覆盖双臂机器人,平台多样性有限

作者明确表示,未来工作将聚焦于"scaling the model versatility by integrating single-arm and mobile robotic data"——当前版本仅在 9 种双臂配置上训练,单臂与移动机器人场景尚未覆盖。(stated)

仿真与真实环境的 sim-to-real gap

论文指出"simulation environments typically employ idealized physical models",真实部署中摩擦、光照、传感器噪声等因素可能导致性能下降。(stated)

绝对成功率仍较低,泛化到长视野任务存在挑战

GM-100 最高平均 SR 仅为 17.30%,说明在百任务规模的开放式评测下模型仍有较大提升空间;测试集约 50% 的原子动作未出现在训练集 top-100 中,泛化难度较高。(inferred)