RT-1: Robotics Transformer for Real-World Control at Scale

01 动机

视觉、语言领域已出现能力强大的通用预训练模型，但机器人领域却迟迟未能复制这一成功。核心瓶颈在于：高质量机器人演示数据稀缺且昂贵，而现有方法往往依赖工程繁琐的自主采集流程或代价高昂的人工演示。那么，能否在大规模、多样化的机器人数据上训练单一多任务模型，使其对新任务、新环境、新物体实现零样本泛化？

"Open-ended task-agnostic training, combined with high-capacity architectures" enables models to effectively learn from varied robotic data — just as large language and vision models benefit from scale and diversity.

RT-1 teaser: 700+ tasks, 130k demonstrations, 3000 evaluation trials — **图 1：RT-1 总览。**以 ~130k 次演示（覆盖 700+ 任务）训练、经 3000 次真实测试验证：在已见任务上达到 97% 成功率，并对全新任务、环境、物体展现出强泛化能力。右侧示意了 RT-1 可完成的多样化操控技能。

97%已见任务成功率

76%未见任务泛化成功率

130k真实演示样本

700+覆盖任务指令数

Robot setup: training classroom and evaluation kitchens — **图 2：硬件与场景设置。**左：机器人"教室"训练环境；中：两个真实办公厨房用于评估（包含一个训练时从未见过的厨房）；右：可扩展技能与物体多样性的移动操控平台。

02 方法

RT-1 将语言指令和历史图像帧作为输入，输出离散化的机器人动作 token。整个架构由三个模块串联组成：基于 FiLM 调制的 EfficientNet 视觉编码器、压缩 token 的 TokenLearner，以及解码动作的 decoder-only Transformer。模型仅有 35M 参数，却能在 100ms 预算内以 3Hz 频率实时控制机器人。

RT-1 architecture diagram — **图 3：RT-1 架构。**语言指令经 Universal Sentence Encoder (USE) 嵌入，通过 FiLM 层条件化预训练的 EfficientNet-B3 提取 81 个视觉 token；TokenLearner 将其压缩为 8 个 token；历史 6 帧共 48 个 token 送入 8 层 decoder-only Transformer，输出 11 维离散动作（256 bins/维）。

视觉-语言编码（Vision-Language Tokenization）

图像以预训练的 EfficientNet-B3（ImageNet 初始化）提取特征，生成 9×9×512 的特征图（共 81 个视觉 token）。语言指令通过 Universal Sentence Encoder 转化为嵌入向量，再以 FiLM（Feature-wise Linear Modulation） 层将语义条件注入视觉编码器，实现指令对视觉特征的逐层调制。 FiLM 层采用恒等初始化，总参数量仅约 16M。

TokenLearner 压缩

81 个视觉 token 通过 TokenLearner（基于 element-wise 注意力）压缩为 8 个 token，显著降低后续 Transformer 的计算量。 6 帧历史图像产生 48 个 token（8×6），送入 Transformer 处理。 TokenLearner 和 token 复用分别带来 2.4× 和 1.7× 的推理加速，保证实时控制（3 Hz，100ms/步）。

动作离散化（Action Discretization）

机器人动作包含 11 个维度（7 维手臂关节 + 3 维底座移动 + 1 维模式切换），每维离散为 256 个 bin，使用 categorical cross-entropy loss 和因果掩码训练。这一设计将连续控制问题转化为分类问题，使 Transformer 架构可以直接被复用于动作预测。

训练数据

数据采集历时 17 个月，使用 13 台机器人收集了 ~130k 次演示，覆盖 744 项技能（包括拾放、抽屉操作、容器交互等），指令多样性超过 700 条。数据多样性（任务种类）被实验验证比数据数量更关键：消融研究显示，去除 25% 的任务种类（但保留 97% 的数据量）对泛化能力的损害，等效于将数据集规模缩减 49%。

03 实验

所有实验均在真实机器人上进行，共计 3000 次评测。基线方法包括 BC-Z（视觉-语言 imitation learning）、Gato（通用多模态大模型）及 SayCan 框架。评估维度覆盖：已见/未见任务成功率、干扰物鲁棒性、背景鲁棒性、长时序任务执行，以及异构数据融合收益。

主要对比结果

评测场景	BC-Z	Gato	RT-1（本文）	提升
已见任务（200+ 条指令）	72%	65%	97%	+25% vs BC-Z
未见新任务（21 条指令）	52%	52%	76%	+24% vs next best
干扰物鲁棒（hard 场景）	47%	—	83%	+36%
背景鲁棒性	41%	—	59%	+18%
长时序任务 Kitchen1（SayCan）	13%	0%	67%	+54% vs BC-Z
长时序任务 Kitchen2（未见场景）	13%	0%	67%	—

Comparison with baselines across task types — **图 4：与基线的全面对比。**RT-1 在已见任务（Seen）和未见任务（Unseen）上均大幅超越 BC-Z 和 Gato，尤其在需要泛化的场景优势显著。SayCan 长时序任务中，Gato 几乎为 0%，BC-Z 为 13%，而 RT-1 达到 67%。

Robustness evaluation with distractors and new backgrounds — **图 5：鲁棒性评测。**干扰物鲁棒性测试中，场景分为 0–5 个简单干扰（easy）、9 个中等干扰（medium）、9 个含遮挡的硬干扰（hard）；背景鲁棒性测试中，包括原始场景、花纹背景、全新厨房。RT-1 在所有条件下均显著超越基线。

消融：数据规模与多样性

Data ablation: task diversity vs data quantity — **图 6：数据消融实验。**任务多样性（task diversity）比数据数量更关键——去除 25% 的任务种类（保留 97% 数据量）对泛化的损害，等效于将数据集规模缩减 49%。右图展示了从仿真数据融合和多机器人混训的收益。

异构数据融合

仿真数据融合：加入仿真数据后，未见仿真物体的成功率从 23% 提升至 87%，而真实物体性能仅从 92% 微降至 90%（几乎无损）。
多机器人混训：将 Everyday Robots 与 Kuka 数据混训后，bin-picking 任务成功率从 22%（单机器人训练）提升至 39%（提升 77%）。

04 局限性

Note: 以下局限性均由论文作者明确陈述（stated），非推断。

受限于 Imitation Learning 的上限

作者明确指出："It may not be able to surpass the performance of the demonstrators." 模型本质上是在复刻人类演示者的行为，难以超越演示者的操作水平，也无法通过探索发现更优策略。

泛化仅限于已见概念的新组合

"Generalization to new instructions is limited to combinations of previously seen concepts" — 模型能够组合已学的技能与物体，但无法泛化到训练中从未出现过的全新动作或物体类别。

仅适用于非精细操控任务

RT-1 适用于 "a large but not very dexterous set of manipulation tasks"，对精细化抓取（如插针、装配）等高灵巧度任务的适用性有限。

背景与环境鲁棒性有待提升

作者承认："robustness to backgrounds and environments could be further improved by greatly increasing the environment diversity." 当前数据来自相对固定的厨房场景，对更广泛环境的适应性仍受限。

实时控制约束限制模型容量

3 Hz 的控制频率（100ms 预算）约束了可部署的模型规模。相比无实时约束的架构，这在模型容量与推理速度之间形成了权衡。