CoRL 2023 · 机器人操作 · Robotics

Robot Learning with Sensorimotor Pre-training

用感知运动预训练赋能机器人学习
Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik  ·  UC Berkeley

本文提出 RPT(Robotic Pre-trained Transformer),一种针对机器人操作的自监督感知运动预训练方法。模型将多视角图像、本体感知状态与动作编码为 sensorimotor tokens,通过掩码预测任务在 2 万条真实机器人轨迹上预训练,再以 behavior cloning fine-tune 到下游任务。实验证明预训练在所有任务上持续优于从零训练,堆积任务成功率提升约 2×,且具备良好的跨任务、跨机器人迁移能力。

CoRL 2023 20,000 真实轨迹 300M 参数 · 10 Hz 📄 arXiv:2306.10007 🌐 Project Page
sensorimotor pre-training robot learning masked prediction Transformer 机器人操作 behavior cloning 迁移学习 scaling laws self-supervised learning RPT

01 动机 Motivation

自监督预训练在视觉和语言领域带来了巨大突破,但在机器人学习领域尚未得到充分探索。机器人操作需要同时处理多模态感知(图像、本体感知)和动作序列,直接从零训练样本效率低、难以在任务间迁移。

"We ask: can we learn good sensorimotor representations from robotic trajectories? Our key hypothesis is that if the robot can predict the missing content it has acquired a good model of the physical world."
RPT overview
图1:RPT 概览。左:采集包含多视角 RGB 图像、本体感知状态与动作的真实轨迹数据集(20,000 条,历时 9 个月)。中:在感知运动序列上进行自监督预训练。右:将预训练表示迁移至下游操作任务。
20K真实机器人轨迹(预训练数据集规模)
堆积任务成功率相对从零训练的提升
300M模型参数量(可在真实机器人 10 Hz 推理)
9 mo.数据采集历时月数

在机器人操作这一数据稀缺场景中,预训练能否帮助模型学到可迁移的物理世界模型?这是 RPT 试图回答的核心问题。与视觉预训练(ViT、MAE)不同,RPT 预训练的对象是跨模态、跨时间步的感知运动序列,旨在捕捉动作与感知之间的因果依赖关系。

02 方法 Method

RPT 分为两个阶段:(1)在大规模真实轨迹上进行感知运动掩码预训练;(2)以 behavior cloning fine-tune 到特定下游任务。整个流水线无需任务标签或语言监督,仅依赖机器人自身采集的轨迹数据。

RPT architecture
图2:感知运动预训练框架。模型以交错方式接收来自 3 个相机视角的图像、本体感知状态和动作,通过冻结的视觉编码器提取视觉 latent,再编码为 sensorimotor tokens,随机掩码后训练 Transformer 重建缺失内容。预训练阶段无需动作标签;fine-tune 阶段以 behavior cloning 学习动作预测。

Sensorimotor Tokenization(感知运动 Token 化)

每个时间步包含三个模态:多视角图像、本体感知状态(关节角度等)、动作。图像经预训练视觉编码器(ViT)提取 latent 表示,与状态、动作分别线性映射为固定维度 token,按时间步交错拼接为序列输入 Transformer。这一设计将视觉编码器从感知运动上下文长度中解耦,使模型可使用 10× 更大的 context 而不增加视觉计算量。

"We predict in the latent representation space rather than the pixel space, which enables 10 times larger models."

Masked Sensorimotor Prediction(掩码预训练目标)

对跨模态、跨时间步的 tokens 进行随机掩码(默认比例 0.9),训练模型从可见 tokens 预测被掩盖内容。对掩码 tokens,模型基于每个 token 的 hidden state 预测对应的原始值;对可见 tokens,直接重构原始输入以鼓励跨模态信息整合。掩码策略同时覆盖所有模态和时间步,迫使模型理解感知与动作之间的时序因果关系。

Fine-tuning via Behavior Cloning(行为克隆微调)

预训练完成后,将 Transformer 作为特征提取骨干,顶部接一线性层预测 10 步动作(自回归推理)。以 behavior cloning 在下游演示数据上微调,可选冻结或解冻视觉编码器。推理时模型以 10 Hz 运行在真实机器人,context 保持 300 tokens。

03 实验 Experiments

实验在 7-DoF 机械臂上进行,任务包括 Pick(单物体抓取)、Destack(拆叠)、Stack(堆积),涵盖物体位姿、形状、外观变化。评估指标为真实机器人执行成功率(%),与从零训练基线对比。

fine-tuning curves
图3:预训练 vs. 从零训练的 fine-tuning 曲线(三个任务)。横轴为演示数量,纵轴为成功率(%)。预训练在所有任务和所有数据量级上均持续领先,且难度越高(Stack)提升越显著。
任务 TaskScratch(从零训练)RPT Pre-trained备注
Pick(~240 demos)~78%~92%较易任务,相对增益适中
Destack(~480 demos)~78%~92%中等难度,增益明显
Stack(~480 demos)~60%~93%"2x improvements in the block stacking task"
注:表中数值从论文 Figure 5 曲线估读(最终数据点),原文以图表形式呈现,未给出精确小数点数字。引号内为原文表述。

Scaling Studies(缩放性质)

scaling studies
图4:缩放研究。左:更大的视觉编码器(Vision Encoder 参数量)带来持续性能提升。中:更长的感知运动 context(Num. Tokens)带来更高成功率。右:更多预训练轨迹数据(Pre-training Data)进一步提升下游性能,体现 favorable scaling properties。评估均在 Stack 任务上进行。

跨任务与跨机器人迁移 Transfer

论文还验证了两种迁移场景:

Ablations 消融实验

04 局限性 Limitations

注:论文未设专门的 Limitations 章节,以下局限性部分来自作者在论文中的陈述(stated),部分为从设计层面推断(inferred)。
典型失败案例(stated)

作者在项目页面中列举了四类典型失败:imprecise picking(抓取不精准)、imprecise stacking(堆叠不精准)、misaligned closures(闭合错位)、object slippage during manipulation(操作中物体滑落)。这些失败说明模型在精细操作方面仍有提升空间。

数据来源单一(inferred)

预训练数据全部来自同一实验室的单一机械臂平台(7-DoF 臂),任务仅涵盖 Pick / Bin Pick / Stack / Destack 四类桌面操作。尽管跨机器人实验展示了一定泛化能力,但数据多样性的不足可能限制更广泛场景下的迁移效果。

语言/任务条件化缺失(inferred)

RPT 不使用语言指令或任务 ID,每次 fine-tune 对应单一任务。在需要语言理解或多任务调度的场景下,需要额外设计任务条件化机制。

计算成本(inferred)

300M 参数模型在真实机器人上以 10 Hz 运行,推理效率已属可接受范围,但预训练阶段的计算资源需求较高。此外,视觉编码器使用在 Ego4D(人类第一人称视频)上预训练的 ViT,与机器人操控场景仍存在域差距,未来可用更多机器人数据专门预训练视觉编码器以进一步提升性能。