RLBench: The Robot Learning Benchmark & Learning Environment

01 动机 Motivation

机器人操作算法的研究面临严峻的评估碎片化问题：现有基准要么任务数量有限（如 RoboTurk 仅 3 个任务）、要么缺乏视觉观测、要么演示数据极难获取。研究者往往各自定义私有评估集，导致方法间横向对比几乎不可能。与此同时，小样本学习、多任务学习等新兴范式也缺乏专门的机器人操作测试平台。

"We present RLBench, an ambitious large-scale benchmark and learning environment designed to facilitate research in a number of areas, including: reinforcement learning, imitation learning, multi-task learning, geometric computer vision, and in particular, few-shot learning. We believe it is important to find the potential and limits of these methods in a controlled, reproducible environment."

RLBench 100 tasks overview — 图 1：RLBench 包含 100 个完全独特的手工设计任务，展示了从简单的金字塔堆叠、插入方块，到复杂的植物浇水等任务样本。任务跨越难度谱系，使基准对新手和有经验的学习算法都具有挑战性。

100完全独特的手工设计任务

∞运动规划器生成的专家演示

5支持的传感器模态（RGB/深度/分割等）

1st机器人领域首个大规模小样本挑战

现有基准的不足

任务多样性不足：OpenAI Gym、DeepMind Control Suite 等主流基准任务数量极少，以连续控制为主，缺乏视觉驱动的操作场景。
演示获取困难：Similate [29]（Sim）等混合真实方案需要动作捕捉校准，耗时耗力；纯仿真方案如 RoboTurk 仅有 3 个任务且需要众包操作员。
缺乏小样本评估：没有现成平台能在机器人场景下公平测试 N-way K-shot 元学习方法。
评估标准不统一：各研究组自定义评估集，跨论文横向比较几乎不可能。

02 方法 Method

RLBench 以 V-REP 仿真器与 PyRep Python API 为基础，构建了统一的机器人操作基准平台。 Franka Panda 机械臂被固定在中央工作台上，配备两路视觉传感器，并通过运动规划器自动生成高质量专家演示。整个系统围绕三个核心概念展开：Task（任务定义）、Variation（参数变体）、Episode（执行片段）。

V-REP scene and visual observations — 图 2&3：左图为 V-REP 场景示意，Franka Panda 机械臂配有俯视立体摄像头（over-the-shoulder stereo camera）和手眼单目摄像头（eye-in-hand monocular camera）。右图展示了两路摄像头提供的 RGB、深度（Depth）及分割掩码（Segmentation Mask）等多种视觉观测，可按需组合使用。

场景设计（Scene）

V-REP 场景包含 Franka Panda 机械臂，固定于工作台中央。视觉观测来自两路摄像头： over-the-shoulder stereo camera（俯视立体摄像头，提供全局视角）和 eye-in-hand monocular camera（手眼摄像头，提供局部精细视角）。每帧观测可包含 RGB 图像、深度图、分割掩码，并附带本体感知数据（joint angles、velocities、torques、 gripper pose、end-effector pose）。机械臂末端执行器可快速替换，适配不同抓取需求。

Task / Variation / Episode 三层结构

Task variation and episode example — 图 4：以 "stack_blocks" 任务为例，展示 Task（任务）、Variation（变体）与 Episode（片段）三层概念。不同 Variation 改变颜色或数量配置，Episode 则是具体执行中物体初始位置与颜色的随机化实例。跨 Variation 时任务目标类型改变，而 Episode 之间仅目标颜色或位置不同。

RLBench 将每个任务分为三个层级：

Task：定义任务的成功条件与运动规划 Waypoint，通过 Python 文件（.ttt 场景 + .py 脚本）描述。
Variation：同一任务的语义变体，由文字描述列表表征（如"把红色方块放在蓝色方块上"），可通过 Variation Generator 自动枚举。
Episode：具体执行片段，随机化物体初始位置与颜色等属性。成功奖励为稀疏 +1，失败为 0。

演示生成与 Environment API

RLBench 通过内置运动规划器（Open Motion Planning Library，OMPL）可以无限生成专家演示，无需人工遥控。每个演示（Demo）由一系列（观测, 动作）对组成，训练时用户可按需抽取任意数量的演示。 API 遵循强化学习标准接口：env.reset()、env.step(action)，动作空间支持绝对或相对的关节速度、末端执行器速度与位姿。任务构建工具（Task Building Tool）允许社区用户通过简单的 Python 文件贡献新任务，有望持续扩展基准规模。

Task word frequency and language description stats — 图 7：100 个任务对应的 Variation 描述文本中词频分布（去除停用词后）。大多数任务的 Variation 描述长度在 100 到 1000 个 token 之间，复杂任务（如 "empty_dishwasher"）描述极长，涵盖多个子步骤（开门、取碗、放托盘、关门等）。

03 实验 Experiments

论文将 RLBench 定位为评估平台，本身不提出新算法，而是在基准上运行若干代表性基线，为模仿学习、强化学习与小样本学习研究提供参照点。

模仿学习基线（Imitation Learning）

论文在多个任务上评估了以下基线方法，使用 K 个演示进行训练（K=1、5、20），并报告测试时 25 个 episode 的成功率：

方法	观测类型	代表性任务成功率	说明
BC（Behavioral Cloning）	RGB + proprioception	部分简单任务可达到较高成功率	直接监督克隆，复合型任务成功率低
LSTM-BC	RGB + proprioception	序列任务略优于 BC	循环网络捕捉时序依赖
Imitation（state-based）	关节状态	state-based 成功率明显高于 RGB	揭示视觉感知仍是主要瓶颈

实验结果表明：训练演示数量（K）对成功率影响显著——K=20 时多数任务成功率明显优于 K=1；复杂多步任务（如 "put_groceries_in_cupboard"）对所有基线仍极具挑战性。

小样本学习挑战（Few-Shot Learning Challenge，v1.0）

论文提出了 RLBench Few-Shot Challenge v1.0，构建机器人领域首个大规模小样本基准：

从 100 个任务中随机划分：训练集 70 个任务，测试集 30 个未见任务。
测试时每个任务提供 K 个演示（K=1、5、20），系统需在 25 个新 episode 上完成任务。
用户报告 1-shot、5-shot、20-shot 成功率，评估泛化到未见任务的能力。

评估 MAML [25]、ProtoNets [26] 等元学习基线，发现现有方法在机器人小样本操作上成功率普遍较低，说明该挑战仍具有巨大研究空间。

多任务学习（Multi-Task Learning）

论文提供了多任务学习的评估框架：系统同时在 M 个训练任务上学习，测试时需在全部 100 个任务（含未见任务）上达到目标成功率。实验显示现有多任务学习方法在任务数量增大后性能下降明显，为未来研究提供了清晰的性能参考基线。

其他应用方向

强化学习（RL）：内置稀疏奖励（成功 +1），支持连续控制 RL 算法评估。
SLAM & 视觉几何（Geometric Vision）：多模态观测（RGB-D + 分割）支持感知算法研究，如目标检测、深度估计、语义分割在机器人场景下的评估。
Sim-to-Real 迁移：仿真平台便于测试域随机化（domain randomization）方法，为真实机器人部署提供受控评估环境。

04 局限性 Limitations

Note：以下局限性部分由论文作者在 "Other Applications & Challenges" 节明确指出，部分为从系统设计中推断（标注为 inferred）。

仿真与真实世界的感知差距（Sim-to-Real Gap）

论文明确指出，RLBench 虽可生成照片级渲染，但仿真渲染与真实相机图像之间仍存在域差距。作者提及使用高质量渲染系统并鼓励研究 sim-to-real 迁移，但 gap 本身无法在仿真内消除。 (stated by authors)

单一机械臂构型，缺乏双臂与移动场景（inferred）

当前平台仅支持固定底座的 Franka Panda 单臂机器人，不支持双臂协作或移动机器人场景。所有任务都假设工作台固定、物体在工作台范围内，排除了导航、全身运动控制等更广泛的操作场景。 (inferred from design)

运动规划器演示质量依赖场景可规划性（inferred）

RLBench 的无限演示依赖 OMPL 运动规划器成功找到路径。对于极度复杂或狭窄空间的任务，规划器可能失败或生成不自然的轨迹，影响演示质量和后续模仿学习的上界。 (inferred from design)

稀疏奖励对强化学习构成挑战（stated）

论文明确指出，稀疏奖励（成功 +1，失败 0）对纯 RL 方法极具挑战性，尤其是多步任务完成率极低，需要大量样本。当前基线的 RL 结果普遍较差，说明该设置远超现有 RL 算法的能力边界。(stated by authors)