RSS 2023 · 机器人操作基准

FurnitureBench

Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation
Minho Heo*, Youngwoon Lee* (UC Berkeley), Doohyun Lee, Joseph J. Lim — KAIST & UC Berkeley · RSS 2023

FurnitureBench 将家具组装作为长时域复杂机器人操作的下一个里程碑基准。它提供了 3D 可打印家具模型、超过 219.6 小时的遥操作演示数据(5000+ 条演示)、一键复现的机器人控制软件以及基于 Isaac Gym 的 FurnitureSim 模拟器,使任何实验室都能以标准化方式评估强化学习与模仿学习算法在真实世界中的表现。

RSS 20238 种家具模型200+ 小时演示 📄 arXiv:2305.12821 Project Page
furniture assembly long-horizon manipulation robotic benchmark imitation learning offline RL reproducibility FurnitureSim 真实机器人

01 动机

现有真实世界机器人操作基准仅能评估推物、拾放等简单短时域任务。要让机器人真正胜任日常任务(整理房间、烹饪、组装家具),需要更具挑战性、可复现的长时域复杂操作基准。

"these approaches have been limited to learning simple behaviors in current real-world manipulation benchmarks, such as pushing or pick-and-place."
FurnitureBench Teaser
FurnitureBench 概览。(左)机器人在真实环境中组装好的家具陈列。(右)基准包含 8 种不同家具模型,每种模型均受 IKEA 家具启发、经由 3D 打印制作,从而保证任意实验室均可复现相同实验条件。

家具组装之所以是理想的基准任务,在于它同时要求:

8种家具模型
5000+条遥操作演示
219.6h演示总时长
10Hz末端执行器控制频率

02 基准设计

FurnitureBench 围绕"可复现(reproducible)"与"易用(easy-to-use)"两大核心目标设计,涵盖真实世界机器人系统、标准化家具模型、演示数据集与模拟器四大模块。

Robot System Setup
真实世界实验环境。系统由一台 7-DoF Franka Emika Panda 机械臂、三台 Intel RealSense D435 RGB-D 相机和 IKEA TOMMARYD 桌面组成;AprilTag 用于估计家具零件位姿以辅助任务初始化,不作为策略观测输入。

可复现系统设计

机器人系统使用学术界广泛采用的硬件(Franka Panda + RealSense D435),家具零件全部经由 3D 打印制作——研究者只需下载模型文件即可在自己实验室复现完全相同的家具零件。绿色摄影背景与受控照明(色温 4600K–6000K,亮度 ≤4000 lm)进一步降低环境变量。任务初始化 GUI 工具引导用户将零件摆放至从预定分布采样的目标位姿,确保不同实验室的评测结果可比较。

演示数据集

作者使用 Oculus Quest 2 VR 控制器与键盘共同完成了 219.6 小时的成功演示采集,覆盖所有 8 种家具与 3 个随机化等级(low / medium / high)。单条演示约 300–3000 步,属于典型的长时域轨迹。

FurnitureSim 模拟器

FurnitureSim 基于 Isaac Gym 与 Factory 构建,支持快速在线渲染与离线光线追踪渲染,与真实世界共享相同的 3D 家具模型与机器人控制器。模拟实验结果与真实世界结果呈正相关,可作为算法快速迭代的代理指标;但仍存在 sim-to-real domain gap,策略不能直接迁移。

观测空间

  • 正面摄像头 RGB(1280×720 → 中心裁剪 224×224)
  • 腕部摄像头 RGB(直接下采样 224×224)
  • 本体感知状态:末端位置、四元数方向、速度、夹爪宽度

评测算法

  • BC(Behavioral Cloning)+ ResNet-18 encoder
  • IQL(Implicit Q-Learning)+ R3M features
  • 指标:技能成功率(10 次 trial 平均)、完成阶段数(phases)

03 实验结果

基准评测分三部分:单技能基准(Single-Skill)、全装配基准(Full-Assembly)和模拟器基准(Simulation)。整体结论是:现有 IL 与离线 RL 算法在该基准上尚无法取得实质进展,特别是在"插接"和"螺旋固定"技能上。

单技能基准结果(lamp 家具,部分)

技能BC (low)IQL (low)BC (med)IQL (med)
Grasping 10%70%0%40%
Placing40%90%30%20%
Grasping 230%0%20%20%
Inserting0%20%0%0%
Screwing10%10%0%0%

IQL 在 square_table 的 Screwing 技能(low randomness)达到 90% 成功率,而 Inserting 技能在所有家具上普遍为 0–20%,证明"精准对齐插接"是当前算法的主要瓶颈。

Full Assembly Benchmark Results
全装配基准结果。BC 和 IQL 在所有 8 种家具、3 种随机化等级下的完成阶段数(phases)均值,误差条表示最小/最大完成数。BC 和 IQL 均无法完成任何一对家具零件的组装(完成阶段数约为 1–2 / 12)。

one_leg 装配消融分析(IQL-R3M,平均完成阶段数)

实验设置low randomnessmedium randomness
Original(低随机化数据)3.8
Original(中随机化数据)3.03.0
Mixed data(混合数据)4.63.7
Front camera only(无腕部摄像头)2.01.3
No AprilTag3.12.4
Random AprilTag3.42.7

可复现性验证

Reproducibility Analysis
可复现性分析。10 名参与者各自独立搭建实验环境(约 3 小时),并在各自环境中评测同一 IQL-R3M 策略。新环境平均达到原始环境性能的 84%(范围 75%–93%),证明基准具备良好的跨实验室复现性。

关键发现

04 局限性

Note: 以下局限性均为作者在论文"Limitations and Future work"节中明确陈述。
家具模型经过简化,与真实 IKEA 家具存在差异

"the 3D furniture models are still tailored to common robotic arms for research, e.g., all pieces have widths larger than 2 cm for easy grasping, which is larger than the tiny screws used in real-world IKEA furniture. Furthermore, our furniture models are much smaller in scale compared to the real-world furniture."尽管如此,作者认为基准仍涵盖大多数长时域操作挑战(temporal credit assignment、exploration、perception、dexterous manipulation)。

单任务、单臂评测,缺乏多任务与多臂协作

当前基准主要以单任务标准、单 Franka Panda 手臂评测。未来方向包括:多任务强化学习(利用不同家具类别的共享信息)、多臂/移动机器人协作,以提升操作灵巧性。

FurnitureSim 存在 sim-to-real domain gap

"system identification is very challenging. For example, the same torque command does not lead to the same robot trajectories in simulation and the real world due to inaccurate robot modeling (e.g., mass of each robot part, friction of joints)."视觉域与物理域均存在差异,直接 sim-to-real 策略迁移困难。作者将弥合该差距列为未来工作。