机器人 · Robotics · arXiv 2025

AgiBot World Colosseo

面向可扩展智能具身系统的大规模操作平台
AgiBot-World-Contributors & 51 位合作者(Qingwen Bu, Guanghui Ren, Chiming Liu … Yu Qiao, Hongyang Li, Bin Zhao 等)

AgiBot World 汇集了超过 100 万条机器人操作轨迹,覆盖 217 项任务和五大部署场景, 并配套发布三阶段泛化策略模型 GO-1(Genie Operator-1)。 在域内与分布外(out-of-distribution)评估中,基于 AgiBot World 预训练的策略均比 Open X-Embodiment 基线提升约 30%

提交:2025-03-09 100 台双臂人形机器人 217 项任务 · 5 大场景 📄 arXiv:2503.06669 GitHub / Project
机器人操作 大规模数据集 latent action model diffusion policy VLA embodied AI 策略泛化 scaling law 人在环路数据 长时序任务

01 动机

机器人学习在大规模基础模型建设上远落后于 NLP 与计算机视觉,根本原因在于高质量数据采集的困难。 现有数据集往往受限于实验室受控环境、短时序任务和异构硬件,导致策略难以迁移至真实世界的多样场景。

"existing robot learning datasets remain constrained by their reliance on short-horizon tasks in highly controlled laboratory environments"
AgiBot World 平台总览
图 1:AgiBot World Colosseo 平台总览。 左侧展示 100 台双臂人形机器人组成的采集集群;中部对比 AgiBot World 与已有数据集在规模与任务覆盖上的差距;右侧展示 GO-1 策略在复杂操作任务中的成功率优势(较 RDT 提升 32%)。
1M+操作轨迹总量
217覆盖任务数量
+30%vs. Open X-Embodiment 平均提升
+32%GO-1 vs. RDT 提升

现有数据集的三大瓶颈

02 方法

AgiBot World 从数据采集策略建模两个维度同时发力: 前者通过人在环路(human-in-the-loop)的三阶段流程保证数据质量; 后者提出 Vision-Language-Latent-Action(ViLLA)三阶段框架,将网络规模视觉语言预训练与高频扩散控制解耦。

数据采集:三阶段人在环路流程

数据采集流程
图 2:三阶段数据采集流程。 第一阶段:可行性验证与任务设计;第二阶段:熟练远程操控员执行示范;第三阶段:后处理标注与质量审核。 整个流程形成"采集→训练→部署→反馈"的迭代闭环,并收录约 1% 的失败恢复轨迹(failure recovery data)。

GO-1:ViLLA 三阶段策略框架

GO-1 架构图
图 3:GO-1(Genie Operator-1)架构。 三个阶段依次为:Latent Action Model(LAM)学习通用动作表征 → Latent Planner 利用预训练 VLM 进行高层规划 → Action Expert 通过扩散目标解码高频低层动作。

Stage 1 · Latent Action Model(LAM)

在互联网规模的异构视频数据上训练编码器-解码器式潜在动作模型: 编码器基于 inverse dynamics model 将相邻帧映射为潜在动作向量; 解码器基于 forward dynamics model 预测未来帧,从而学习与具身形式无关的通用动作表征。

Stage 2 · Latent Planner

InternVL2.5-2B 作为骨干(24 个 transformer 层),通过"逐层条件注入" (layer-by-layer conditioning)将视觉语言理解能力迁移至机器人规划,输出高层潜在规划信号, 实现跨具身的通用性。

Stage 3 · Action Expert

利用扩散目标(diffusion objective)对低层连续动作分布进行建模, 以 action chunks(H = 30)输出高频关节控制指令,支持灵巧操作任务。

开源资源

数据集、采集工具链、GO-1 模型权重及评测协议均已公开发布, 旨在推动机器人基础模型研究的可复现与可扩展性。

03 实验

所有评估均在真实世界场景中进行,覆盖域内(in-domain)和分布外(out-of-distribution)两类设置, 并与 Open X-Embodiment 预训练基线及 RDT 进行对比。

数据集对比:AgiBot World vs. Open X-Embodiment

评估设置Open X-Embodiment 预训练AgiBot World 预训练提升
域内(in-domain)0.470.77+0.30
分布外(out-of-distribution)0.380.67+0.29

基于 AgiBot World 预训练的策略在两类场景下均实现 "average performance improvement of 30% over those trained on Open X-Embodiment"

GO-1 vs. RDT 对比

GO-1 与 RDT 性能对比
图 4:GO-1 与 RDT 在不同复杂操作任务中的成功率对比。 GO-1 在 "Fold Shorts"、"Restock Beverage" 等长时序灵巧任务中均优于 RDT,平均提升 0.12 任务完成得分; Latent Planner 的加入贡献了显著增益。
模型复杂任务成功率相对 RDT 提升
RDT(prior best)
GO-1(ours)> 60%+32%

Scaling Law 与数据质量消融

Scaling law 与质量消融
图 5:消融实验结果。 (a)数据集规模(9.2k → 1M 轨迹)与策略性能呈幂律关系,Pearson r = 0.97,验证了 scaling law 的存在。 (b)人工验证数据(528 条)相比未验证数据(482 条)提升策略得分 0.18,说明数据质量对策略性能的关键影响。

04 局限性

注:以下第 1 点为作者在论文中明确陈述(stated);第 2、3 点为基于方法设计推断(inferred)。
缺乏仿真评估环境(明确陈述)

论文明确指出:"All evaluations are conducted in real-world scenarios. We are currently developing the simulation environment to facilitate fast and reproducible evaluation." 目前所有指标均来自真实机器人测试,缺乏可快速重现的仿真基准,限制了社区对结果的独立验证。

硬件依赖性(推断)

整套系统依赖 100 台定制双臂人形机器人与专用灵巧手、视触觉传感器, 数据采集与策略复现的硬件门槛较高,难以被一般研究机构直接复制。

跨具身泛化的隐含假设(推断)

Latent Action Model 虽声称学习"具身无关"的表征,但预训练视频数据与目标机器人之间的域差异(embodiment gap) 尚未被系统分析;在形态差异较大的机器人平台上的迁移效果有待验证。