RDT-1B: 面向双臂操作的扩散基础模型

01 动机

双臂操作是机器人走向真实世界的关键能力，但现有方法面临两大核心挑战：一是双臂协调产生的多模态动作分布（同一任务可能存在多种合理的执行方式），二是双臂演示数据的严重匮乏，限制了模型的泛化能力。作者指出，现有扩散模型在机器人操作上最多只达到 93M 参数规模，难以充分利用大规模多机器人数据。

"Bimanual manipulation is essential in robotics, yet developing foundation models is extremely challenging due to the inherent complexity of coordinating two robot arms (leading to multi-modal action distributions) and the scarcity of training data."

**Figure 1.** RDT-1B 总览：作为语言条件化的视觉运动策略，RDT-1B 在未见物体、未见场景、新语言指令、few-shot 新技能和精细灵巧操作等 5 类任务上均展现出最优泛化性能。

1.2B模型参数量（机器人扩散模型最大）

56%在多项挑战任务上提升幅度（相对基线）

1M+预训练轨迹数 / 21TB 数据

6K+微调双臂演示条数 / 300+ 任务

双臂机器人与多模态问题 — **Figure 2.** (a) ALOHA 双臂机器人示意图，配备两臂、夹爪和三个摄像头。 (b) 双臂抓取的多模态示例：相比单臂操作，双臂协调存在更多可行的动作模式，演示数据中的随机选择导致动作分布具有强多模态性。

02 方法

RDT 以扩散 Transformer 为骨干，通过三项关键架构改进适配机器人操作的特殊性；同时设计"物理可解释统一动作空间"，将来自 46 个数据集、多种机器人的异构动作统一表示，从而实现跨机器人知识迁移并缓解数据稀缺问题。

RDT 架构 — **Figure 3.** RDT 整体框架：各机器人的异构动作空间经统一动作空间映射后输入模型。模型接受本体感知状态、带噪动作、控制频率、扩散时间步、多视角图像（SigLIP 编码）和语言指令（T5-XXL 编码）作为条件，输出去噪后的动作序列（action chunk）。

三项关键架构改进

QKNorm & RMSNorm

机器人物理量（如关节角度、速度）数值范围差异极大，标准 Transformer 在大规模预训练时会出现数值不稳定甚至梯度爆炸。引入 Query/Key Normalization 和 RMSNorm 后，训练损失曲线稳定收敛。论文指出："Large-scale pre-training tends to be very unstable or even explode without this modification."

MLP Decoder

将标准 Diffusion Transformer 的线性解码器替换为非线性 MLP，以更好地捕捉机器人动力学的非线性特征。消融实验表明："without this design, RDT cannot effectively capture nonlinear dynamics."

Alternating Condition Injection (ACI)

在 Transformer 各层中交替注入图像 token 和文本 token，防止视觉信息淹没语言条件信号。这一设计使 RDT 能够精确理解细粒度语言指令（如"倒三分之一的水"），而不仅仅是粗粒度的任务描述。

物理可解释统一动作空间

不同机器人的动作空间（关节角度、末端执行器位姿、夹爪开合等）在维度和物理单位上各不相同。 RDT 设计了一套统一表示，在保留物理含义的同时消除了跨平台异构性，从而能够在 46 个不同机器人数据集（超 1M 轨迹、21TB）上联合预训练，而不引入负迁移。

多模态输入编码

图像：使用预训练 SigLIP 视觉编码器，支持多视角输入
语言：使用预训练 T5-XXL 语言模型，支持细粒度指令
低维输入：本体感知状态、控制频率等使用带 Fourier 特征的 MLP 编码
随机独立掩码：训练时随机屏蔽部分模态，防止模型过度依赖某一输入

推理加速：使用 DPM-Solver++ 将扩散步数从 100 步缩减至 5 步，实现 6 Hz chunk 频率 / 381 Hz 实际动作频率，满足实时控制需求。

03 实验

在 ALOHA 双臂机器人上评测 7 类挑战任务，涵盖 5 个研究问题：未见物体泛化、未见场景泛化、语言指令跟随、few-shot 新技能学习、精细灵巧操作。基线方法包括 ACT、OpenVLA 和 Octo。预训练使用 48 块 H100 80GB GPU 训练一个月（1M 步）；微调同样硬件运行 3 天（130K 步）。

七类任务定义与可视化 — **Figure 5.** 七类任务的定义与可视化，包括对每个子任务的语言指令、随机化条件和成功判定标准。任务从左至右难度递增：洗杯（未见物体）、倒水（未见场景）、精确倒水（语言指令跟随）、传递物品（5-shot）、折叠短裤（1-shot）、机器狗手柄操作（灵巧操作）。

主实验结果（Table 3，成功率 %）

任务	ACT	OpenVLA	Octo	RDT (ours)
Wash Cup · 总体（未见物体）	12.5	0	0	62.5
Pour Water · 总体（未见场景）	12.5	0	0	62.5
Pour Water-L-1/3（语言指令）	—	0	0	87.5
Pour Water-R-2/3（语言指令）	—	0	0	87.5
Fold Shorts（1-shot）	0	0	4	62.5
Handover · 总体（5-shot）	88 (pickup)	84 (pickup)	100 (pickup)	100 (pickup)
Robot Dog（灵巧操作）	32	0	0	48

消融实验（Table 2，成功率 %）

变体	未见物体	未见场景	语言指令跟随
RDT (regress) — 去掉扩散，改为回归	12.5	50	12.5
RDT (small) — 小参数量模型	37.5	62.5	25
RDT (scratch) — 无预训练，从头训练	0	25	62.5
RDT (ours)	50	62.5	100

消融结果表明："diffusion modeling, large model size, and large data size all contribute to superior performance"—— 三者缺一不可。去掉扩散建模后，语言指令跟随从 100% 骤降至 12.5%；去掉大规模预训练后，未见物体任务成功率从 50% 降至 0%。

消融实验结果 — **Figure 4.** (a) 去掉 QKNorm 和 RMSNorm 后，大规模预训练的损失曲线出现严重不稳定甚至爆炸。 (b) 去掉 MLP 解码器或 ACI 后的任务成功率对比，验证了两项设计的必要性。

04 局限性

Note：论文未包含显式的 Limitations 章节。以下各项：标注"（作者陈述）"的源于论文正文，标注"（设计推断）"的为审稿人/读者从方法设计中合理推导。

仍需针对目标机器人进行微调（设计推断）

尽管 RDT 在海量多机器人数据上预训练，但在 ALOHA 上的评测仍依赖 6K+ 条目标平台演示数据进行微调。零样本跨平台部署（不经任何微调）的可行性尚未验证，存在一定的 embodiment gap。

统一动作空间需人工映射（设计推断）

物理可解释统一动作空间虽然有效，但对于新机器人平台，仍需手动设计从其原生动作空间到统一空间的映射规则。这一过程需要机器人专业知识，限制了"即插即用"的可扩展性。

数据采集成本高（作者陈述）

论文指出双臂操作数据 "scarcity" 是核心挑战。尽管 RDT 通过大规模预训练缓解了数据稀缺问题，但收集 6K+ 高质量双臂演示仍需大量人力成本。论文使用 GPT-4-Turbo 增强语言多样性，但并未解决物理演示数据的采集瓶颈。

推理延迟（设计推断）

即使使用 DPM-Solver++ 将扩散步数减至 5 步并达到 6 Hz chunk 频率，对于需要极高实时反应速度的任务（如动态抓取运动物体）仍可能存在延迟问题。经典回归策略（如 ACT）在推理速度上仍具优势。