Open X-Embodiment: Robotic Learning Datasets and RT-X Models

01 动机

NLP 和计算机视觉领域通过在大规模、多样化数据集上预训练，实现了显著的泛化能力。而机器人学习领域仍停滞于"各自为政"的小规模数据集——每个实验室只训练自己机器人上的任务，无法从他人数据中受益。核心问题是：机器人学习能否像 NLP 一样，围绕通用模型整合，从而实现正向迁移？

"Robotic learning datasets are often still narrow along some axes of variation, either focusing on a single environment, a single set of objects, or a narrow range of tasks."

OXE Dataset Composition — 图1：Open X-Embodiment 数据集概览。(a) 60个数据集在22种机器人上的分布；(b) 每种机器人的场景多样性；(c) 各机器人的轨迹数量（xArm 和 Google Robot 占主导）；(d)(e) 通过 PaLM 分析提取的技能和物体多样性。数据集涵盖527种技能和160,266个任务。

22机器人种类

60聚合数据集

1M+真实轨迹

527技能类型

02 方法

该工作提出两个核心贡献：(1) 构建 Open X-Embodiment (OXE) 数据集，将60个异构机器人数据集统一转换为 RLDS 格式；(2) 在 OXE 上训练 RT-1-X 和 RT-2-X 两个模型，分别代表中等容量专用网络和大容量 vision-language-action 模型。

RT-1-X and RT-2-X Architecture — 图2：RT-1-X（左）和 RT-2-X（右）架构。两者均以图像序列和自然语言指令为输入，输出离散化的7自由度末端执行器动作。RT-1-X 使用 EfficientNet + FiLM + Transformer Decoder（35M参数）；RT-2-X 基于 PaLI-X 骨干（55B参数），将动作表示为文本 token 输出。

RT-1-X：中等容量专用模型

35M 参数 Transformer 网络，专为机器人控制设计
输入：15帧图像历史 + 自然语言指令
视觉编码：ImageNet 预训练 EfficientNet
语言编码：Universal Sentence Encoder (USE) 嵌入
融合：FiLM 层交织视觉-语言 token（共81个 token）
输出：Decoder-only Transformer 产生离散化7自由度动作

RT-2-X：大容量 VLA 模型

基于 PaLI-X 骨干（ViT + UL2 语言模型）
在 WebLI 互联网规模视觉-语言数据上预训练
将机器人动作表示为文本 token（如 "1 128 91 241 5 101 127"）
输出：256个离散动作区间，覆盖8个维度
支持55B和5B两种规模
与机器人数据和网络数据联合微调（co-fine-tuning）

OXE 数据集构建

所有60个数据集统一转换为 RLDS（serialized tfrecord）格式。数据来自21个机构，涵盖22种机器人平台，包含160,266个任务、527种技能，超过100万条真实机器人轨迹。各数据集按比例混合（混合权重基于数据集规模和质量评估），以避免大数据集完全主导训练。

03 实验

在6种机器人上共评估3,600次试验，涵盖小规模和大规模数据集场景，同时评估 RT-2-X 的 emergent skills（跨机器人平台迁移能力）和泛化能力。

主要结果（Table I）：大规模数据集场景

评估域	Original Method	RT-1	RT-1-X	RT-2-X (55B)
Bridge (WidowX)	13%	40%	27%	50%
RT-1 Paper Domain	13%	30%	27%	30%
Google Robot	—	92%	73%	91%

小规模数据集场景中，RT-1-X 相比原始方法或单机器人 RT-1 基线取得 50% 更高的平均成功率。大规模数据集场景下，RT-1-X 出现欠拟合（underfitting），而高容量的 RT-2-X (55B) 能有效学习并优于基线。

RT-1-X Results Barplot — 图3：各机器人平台上 RT-1-X 与原始方法和 RT-1 基线的成功率对比（小规模数据集场景）。RT-1-X 在多个机器人平台上均展现出正向迁移，平均成功率提升约50%。

Emergent Skills（涌现技能）评估

在 Google Robot 上执行来自 Bridge 数据集（WidowX 机器人）的任务，用于评估跨机器人平台的技能迁移能力：

27.3%RT-2（单机器人）

75.8%RT-2-X（多机器人）

~3×涌现技能提升倍数

42.8%去除 Bridge 数据后

RT-2-X Emergent Skills Evaluation — 图4：RT-2-X emergent skills 评估结果。RT-2-X 在 Google Robot 上执行 Bridge 数据集任务，成功率75.8%，相比单机器人训练的 RT-2（27.3%）提升约3倍。去除 Bridge 训练数据后性能下降至42.8%，确认 WidowX 数据的迁移贡献。

消融实验（Table II）

配置	模型规模	Web 预训练	Emergent Skills	泛化能力
RT-2（单机器人）	55B	✓	27.3%	62%
RT-2-X（完整）	55B	✓	75.8%	61%
RT-2-X（去除 Bridge）	55B	✓	42.8%	54%
RT-2-X（5B）	5B	✓	44.4%	52%
RT-2-X（5B，无图像历史）	5B	✓	14.5%	30%
RT-2-X（5B，无 Web 预训练）	5B	✗	0%	1%

消融实验揭示三个关键因素：(1) Web 预训练至关重要——去除后 emergent skills 从44.4%骤降至0%；(2) 模型容量影响迁移效果——55B vs 5B 在 emergent skills 上相差约31个百分点（75.8% vs 44.4%）；(3) 图像历史帮助性能——去除后 emergent skills 下降约30个百分点。

04 局限性

Note: 以下局限性均来自论文正文作者明确陈述（stated by authors）。

不涵盖感知与驱动模态差异极大的机器人

论文原文："Our experiments do not consider robots with very different sensing and actuation modalities." 当前实验主要集中在使用相机视觉输入和标准末端执行器的机械臂，未探索触觉传感、力传感器、腿式机器人等差异更大的模态。

未研究向全新机器人的泛化（zero-shot embodiment transfer）

论文原文："They do not study generalization to new robots, and provide a decision criterion for when positive transfer does or does not happen." 所有评估机器人均在训练阶段出现过，未测试能否将策略迁移到从未见过的机器人平台。

RT-1-X 在大规模数据集上欠拟合

RT-1-X（35M参数）在大规模数据集场景下出现欠拟合现象，无法充分利用 OXE 数据的多样性。需要更高容量的模型（如 RT-2-X 55B）才能有效实现正向迁移，这对计算资源提出了较高要求。

缺乏正向迁移发生条件的理论判据

论文原文提到该工作未能提供一个明确的判断准则来预测何时会发生正向迁移、何时会出现负向迁移，这一理论问题留待未来工作解决。