Robot Learning with Sensorimotor Pre-training

01 动机 Motivation

自监督预训练在视觉和语言领域带来了巨大突破，但在机器人学习领域尚未得到充分探索。机器人操作需要同时处理多模态感知（图像、本体感知）和动作序列，直接从零训练样本效率低、难以在任务间迁移。

"We ask: can we learn good sensorimotor representations from robotic trajectories? Our key hypothesis is that if the robot can predict the missing content it has acquired a good model of the physical world."

RPT overview — 图1：RPT 概览。左：采集包含多视角 RGB 图像、本体感知状态与动作的真实轨迹数据集（20,000 条，历时 9 个月）。中：在感知运动序列上进行自监督预训练。右：将预训练表示迁移至下游操作任务。

20K真实机器人轨迹（预训练数据集规模）

2×堆积任务成功率相对从零训练的提升

300M模型参数量（可在真实机器人 10 Hz 推理）

9 mo.数据采集历时月数

在机器人操作这一数据稀缺场景中，预训练能否帮助模型学到可迁移的物理世界模型？这是 RPT 试图回答的核心问题。与视觉预训练（ViT、MAE）不同，RPT 预训练的对象是跨模态、跨时间步的感知运动序列，旨在捕捉动作与感知之间的因果依赖关系。

02 方法 Method

RPT 分为两个阶段：（1）在大规模真实轨迹上进行感知运动掩码预训练；（2）以 behavior cloning fine-tune 到特定下游任务。整个流水线无需任务标签或语言监督，仅依赖机器人自身采集的轨迹数据。

RPT architecture — 图2：感知运动预训练框架。模型以交错方式接收来自 3 个相机视角的图像、本体感知状态和动作，通过冻结的视觉编码器提取视觉 latent，再编码为 sensorimotor tokens，随机掩码后训练 Transformer 重建缺失内容。预训练阶段无需动作标签；fine-tune 阶段以 behavior cloning 学习动作预测。

Sensorimotor Tokenization（感知运动 Token 化）

每个时间步包含三个模态：多视角图像、本体感知状态（关节角度等）、动作。图像经预训练视觉编码器（ViT）提取 latent 表示，与状态、动作分别线性映射为固定维度 token，按时间步交错拼接为序列输入 Transformer。这一设计将视觉编码器从感知运动上下文长度中解耦，使模型可使用 10× 更大的 context 而不增加视觉计算量。

"We predict in the latent representation space rather than the pixel space, which enables 10 times larger models."

Masked Sensorimotor Prediction（掩码预训练目标）

对跨模态、跨时间步的 tokens 进行随机掩码（默认比例 0.9），训练模型从可见 tokens 预测被掩盖内容。对掩码 tokens，模型基于每个 token 的 hidden state 预测对应的原始值；对可见 tokens，直接重构原始输入以鼓励跨模态信息整合。掩码策略同时覆盖所有模态和时间步，迫使模型理解感知与动作之间的时序因果关系。

Fine-tuning via Behavior Cloning（行为克隆微调）

预训练完成后，将 Transformer 作为特征提取骨干，顶部接一线性层预测 10 步动作（自回归推理）。以 behavior cloning 在下游演示数据上微调，可选冻结或解冻视觉编码器。推理时模型以 10 Hz 运行在真实机器人，context 保持 300 tokens。

03 实验 Experiments

实验在 7-DoF 机械臂上进行，任务包括 Pick（单物体抓取）、Destack（拆叠）、Stack（堆积），涵盖物体位姿、形状、外观变化。评估指标为真实机器人执行成功率（%），与从零训练基线对比。

fine-tuning curves — 图3：预训练 vs. 从零训练的 fine-tuning 曲线（三个任务）。横轴为演示数量，纵轴为成功率（%）。预训练在所有任务和所有数据量级上均持续领先，且难度越高（Stack）提升越显著。

任务 Task	Scratch（从零训练）	RPT Pre-trained	备注
Pick（~240 demos）	~78%	~92%	较易任务，相对增益适中
Destack（~480 demos）	~78%	~92%	中等难度，增益明显
Stack（~480 demos）	~60%	~93%	"2x improvements in the block stacking task"

注：表中数值从论文 Figure 5 曲线估读（最终数据点），原文以图表形式呈现，未给出精确小数点数字。引号内为原文表述。

Scaling Studies（缩放性质）

视觉编码器缩放：使用在 Ego4D 上预训练的 ViT（从 ViT-S 到 ViT-H），更大编码器带来持续收益。
Context 长度缩放：context 从 1 到 300 tokens，更长上下文持续改善性能（300 tokens ≈ 30 时间步）。
预训练数据量缩放：从 480 到 20,000 条轨迹，数据越多性能越高，体现良好的 data scaling。

跨任务与跨机器人迁移 Transfer

论文还验证了两种迁移场景：

Cross-task transfer（跨任务）：在 xArm 机器人上，以其他任务数据预训练再 fine-tune 到 Stack，优于从零训练基线（成功率提升 ~24%）。
Cross-robot transfer（跨机器人）：在 Franka 机器人（训练）→ xArm 机器人（部署），预训练模型明显优于从零训练，展示跨机器人平台的泛化能力。

Ablations 消融实验

掩码比例（Masking Ratio）：0.9 的高掩码比例最优（从 0.1 到 0.9 逐渐提升）；感知运动预训练需要更高掩码比例才能学到有效表示。
掩码策略（Masking Type）：统一随机掩码优于仅掩码某一模态或某一时间步；跨模态跨时序联合掩码对性能至关重要。
Partial vs. Full fine-tuning：更多演示数据下，全量 fine-tune 略优；少量演示下 partial fine-tuning 更鲁棒。
Linear probing：线性探针无法取得非平凡性能，说明下游任务需要特征适应（fine-tuning 必要）。

04 局限性 Limitations

注：论文未设专门的 Limitations 章节，以下局限性部分来自作者在论文中的陈述（stated），部分为从设计层面推断（inferred）。

典型失败案例（stated）

作者在项目页面中列举了四类典型失败：imprecise picking（抓取不精准）、imprecise stacking（堆叠不精准）、misaligned closures（闭合错位）、object slippage during manipulation（操作中物体滑落）。这些失败说明模型在精细操作方面仍有提升空间。

数据来源单一（inferred）

预训练数据全部来自同一实验室的单一机械臂平台（7-DoF 臂），任务仅涵盖 Pick / Bin Pick / Stack / Destack 四类桌面操作。尽管跨机器人实验展示了一定泛化能力，但数据多样性的不足可能限制更广泛场景下的迁移效果。

语言/任务条件化缺失（inferred）

RPT 不使用语言指令或任务 ID，每次 fine-tune 对应单一任务。在需要语言理解或多任务调度的场景下，需要额外设计任务条件化机制。

计算成本（inferred）

300M 参数模型在真实机器人上以 10 Hz 运行，推理效率已属可接受范围，但预训练阶段的计算资源需求较高。此外，视觉编码器使用在 Ego4D（人类第一人称视频）上预训练的 ViT，与机器人操控场景仍存在域差距，未来可用更多机器人数据专门预训练视觉编码器以进一步提升性能。