cs.RO · RSS 2024

Octo: An Open-Source Generalist Robot Policy

首个可有效微调到新观测空间与动作空间的开源通用机器人策略
Octo Model Team · Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna 等 · UC Berkeley, Stanford, CMU, Google DeepMind

Octo 是一个基于 Transformer 的通用机器人策略,在来自 Open X-Embodiment 数据集的 80 万条机器人演示轨迹上预训练。它接受语言指令或目标图像作为输入,并能在消费级 GPU 上、数小时内微调适配到全新机器人平台——包括全新的观测输入(如力矩传感器)和全新的动作空间(如关节位置控制)。

arXiv 2405.12213 May 2024 800k 训练轨迹 📄 arXiv:2405.12213 Project Page
generalist robot policy Open X-Embodiment diffusion policy transformer imitation learning 多机器人迁移 预训练策略 action chunking finetuning multi-embodiment

01 动机

大规模预训练已彻底改变了 NLP 与计算机视觉领域,但机器人学习为何仍难以复制这一成功?核心障碍在于机器人的多样性:不同的本体(embodiment)、传感器配置、动作空间和任务规范,使得统一的通用策略难以构建。现有的通用机器人策略(Generalist Robot Policies, GRP)通常将用户锁定在固定的观测输入格式上,且对新平台的微调支持十分有限。

"Octo is the first GRP that can be effectively finetuned to new observations and action spaces."
Octo 系统概览
Octo 的整体架构:将任务(语言/目标图像)和观测(相机图像)tokenize 后输入 Transformer 主干,通过 block-wise attention 结构和 diffusion action head 输出动作序列。模块化设计使微调时可灵活添加或去除输入/输出通道,无需重新训练核心参数。
800k预训练轨迹数(Open X-Embodiment)
25训练数据集来源
9零样本评估机器人平台数
72%微调后六项任务平均成功率
九台机器人评估平台
来自四个机构的九套真实机器人评估场景,涵盖多样化物体交互、长时序任务与精细操作,用于评估 Octo 的零样本跨平台泛化能力。

02 方法

Octo 由三个核心模块组成:输入 tokenizer、Transformer 主干、以及基于 diffusion 的动作解码器。整体设计强调模块化与可扩展性——新的观测类型(如力矩传感器)或动作空间(如关节位置控制)可在微调阶段轻松接入,核心预训练权重保持不变。

Octo 架构图
Octo 的详细架构。语言指令经 pretrained T5-base(111M 参数)编码;图像观测经浅层卷积后 patch tokenization;所有 token 送入 Transformer,经 block-wise masked attention 处理后,由 readout token 汇聚信息,最终输入 diffusion head 预测动作 chunk。

Block-wise Masked Attention

Transformer 主干采用 block-wise masked attention 结构:观测 token 在时序上以因果(causal)方式关注更早时间步的观测与任务 token;专门设计的 "readout token" 被动汇聚信息,不影响观测 token 的注意力计算。这种结构使得不同类型的输入/输出可以在微调时灵活插拔,而不破坏预训练阶段学到的表征。

Diffusion Action Head

动作解码采用 diffusion-based policy head,预测动作 chunk(多步动作序列),而非单步 MSE 或离散动作。消融实验表明,这一设计对模型性能至关重要:在 WidowX 任务上,离散动作预测(18%)和连续 MSE 预测(35%)均远低于 diffusion head 对应的 Octo-Small 基线(83%)。

大规模多数据集预训练

Octo 在来自 Open X-Embodiment 的 25 个数据集、共计 80 万条轨迹上预训练。训练数据混合包含多种机器人本体、相机视角和任务类型,是迄今为止规模最大的开源机器人预训练数据集之一。消融实验表明,使用全部 25 个数据集的混合(83%)显著优于仅用 RT-X 的 11 个数据集子集(60%),以及单一 Bridge Data(43%)。

模型规模消融
模型规模对性能的影响:Tiny(10M)< Small(27M)< Base(93M)。更大的模型在场景变化时表现出更强的鲁棒性和更谨慎的抓取行为。

03 实验

实验在九个真实机器人平台上进行,分零样本(zero-shot)评估和微调(finetuning)评估两个维度。零样本测试对比 RT-1-X 和 RT-2-X;微调测试对比从头训练的 ResNet+Transformer baseline 和 VC-1 预训练特征。每类任务约 100 条目标域演示数据。

零样本多机器人控制

在零样本多机器人评估中,Octo 的成功率比 RT-1-X 高出 29%,尽管参数量远小于 RT-2-X(55B),Octo 与其性能相当。在 WidowX 任务上,目标图像条件(goal-conditioned)的成功率比语言条件(language-conditioned)高出 25%

零样本评估结果
零样本多机器人评估结果:对比 Octo、RT-1-X 和 RT-2-X 在多个机器人本体上的成功率。Octo 在大多数任务上优于 RT-1-X,并与参数量大得多的 RT-2-X 持平。

微调评估(Table I)

在六项微调评估任务中,Octo 平均成功率达 72%,比次优 baseline(VC-1)高出 52%。其中包含两项特殊挑战:Berkeley Insertion(新观测输入:力矩传感器)和 Berkeley Pick-Up / Berkeley Bimanual(新动作空间:关节位置控制),Octo 均表现出色。

任务ResNet+Transformer(从头)VC-1Octo(ours)
Berkeley Insertion*10%5%70%
Stanford Coffee45%0%75%
CMU Baking25%30%50%
Berkeley Pick-Up†0%0%60%
Berkeley Coke20%10%100%
Berkeley Bimanual†20%50%80%
平均20%15%72%

*新观测输入(force-torque sensor);†新动作空间(joint position control)

消融实验(Table II,WidowX 平台)

以下消融均在 WidowX 平台 40 次试验、四项任务上进行:

组件/变体成功率
Octo-Small(完整版)83%
仅用 RT-X 数据子集(11 个数据集)60%
仅用 Bridge Data(单一数据集)43%
离散化动作预测(Discretized)18%
连续 MSE 动作预测35%
ResNet-50 + Transformer(替换 ViT)70%

消融结果表明:多样化数据混合、diffusion action head、以及 ViT 图像编码器是 Octo 成功的关键三要素。

04 局限性

Note: 以下局限性均为论文作者明确陈述(stated),非推断。
腕部相机信息处理能力不足

"The current Octo model struggles with adequately processing wrist camera information. Often finetuning results were stronger when using only a third person camera instead of combining third person and wrist camera."预训练数据中仅有 27% 包含腕部相机信息,导致模型对该输入模态的利用不充分。

语言条件与目标图像条件之间存在较大性能差距

"Only 56% of the pretraining data contains language annotations",导致语言条件策略性能系统性弱于目标图像条件策略。数据模态分布不均是根本原因。

仅能从最优演示中学习,无法利用次优或在线交互数据

模型完全依赖 imitation learning,训练于人类专家的最优演示。论文指出,"future work may consider learning from sub-optimal or online interaction data that require alternative objectives."

仅覆盖单臂与双臂机械臂,不涉及导航与移动操作

当前 Octo 仅在固定基座的单臂/双臂机器人上验证,论文明确指出未探索移动机器人(navigation and mobile manipulation)场景。

零样本泛化在新场景与新行为上表现下降

Zero-shot 性能"degrades in a new scene, and high degradation for novel behaviors like flipping or precise insertion",说明预训练策略对分布外场景的鲁棒性有限。