机器人 · Robotics · ICRA 2024

RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot

首个大规模多模态 contact-rich 机器人操控数据集,支持单样本技能泛化
Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Chenxi Wang, Junbo Wang, Haoyi Zhu, Cewu Lu  ·  上海交通大学

RH20T(Robot-Human Demonstration in 20TB)是一个包含超过 110,000 条真实世界机器人操控序列的大规模数据集。每条序列同步采集 RGB-D 视觉、6DoF 力/力矩、音频及本体感知信息,并附有对应的人类示范视频与语言描述,覆盖 147 项任务 / 42 种技能,横跨 7 种机器人配置。其设计目标是推动机器人在开放域中实现单样本(one-shot)技能迁移与多模态感知。

ICRA 2024 上海交通大学 2023-07-02 📄 arXiv:2307.00595 🌐 Project Page: rh20t.github.io
机器人操控数据集 one-shot imitation learning multi-modal perception contact-rich manipulation force-torque sensing 机器人技能泛化 遥操作数据采集 多视角标定

01 动机 Motivation

现有机器人操控研究主要停留在推送(push)、抓取(pick-place)等简单任务,且几乎仅依赖视觉(visual-only)反馈。然而现实中许多操控技能高度依赖力觉与触觉——如切割、旋转、插拔等 contact-rich 动作。造成这一差距的核心瓶颈有两个:(1)缺乏大规模多样化的真实机器人数据集(2)现有方法忽略了视觉之外的多模态感知

"In reality, there are many complex skills, some of which may even require both visual and tactile perception to solve. This paper aims to unlock the potential for an agent to generalize to hundreds of real-world skills with multi-modal perception."
RH20T数据集总览
图1:RH20T 数据集总览。使用多种机器人臂与多样化环境配置采集数据。每条机器人操控序列包含多模态视觉、力觉、音频和动作数据,并通过标定的多视角相机记录。数据集涵盖多样化操控技能,每条序列配有对应的人类示范视频与语言描述。共提供超过 110K 条机器人序列和 110K 条人类示范序列,包含超过 5000 万帧图像及 140+ 项任务。
110K+机器人操控序列
110K+对应人类示范视频
50M+总图像帧数
147任务 / 42 种技能

与同类公开数据集的对比凸显了 RH20T 的全面性:MIME(8.3K 条)、RoboTurk(2.1K 条)、RoboNet(162K 条,但多为随机游走)、BC-Z(60.1K 条,技能单一)均无法同时覆盖多机器人、力觉感知、相机标定与人类示范等维度。RH20T 是目前社区中规模最大、模态最丰富的真实世界机器人操控数据集。

02 方法 Method(数据集构建)

RH20T 的构建核心在于:设计直觉高效的力反馈遥操作平台,建立多模态多视角同步采集流水线,以及完善的数据层级结构(hierarchy),以支持密集的 <human demo, robot manipulation> 配对。

数据集规模对比与硬件配置
表1(上):与同类数据集对比。RH20T 在序列数量(110K)、机器人种类(12 种)、模态丰富度(RGB-D、力矩、音频、本体感知)、相机外参标定和人类示范等方面全面领先。
表2(下):硬件配置详情。7 种机器人配置涵盖 Flexiv、UR5、Franka、Kuka 等主流机械臂,搭配 ATI、OptoForce 等力矩传感器;表3 给出各模态采样频率(RGB 10Hz、关节力矩 100Hz、触觉 200Hz 等)。

多模态同步采集平台

每套采集平台由机械臂(含力矩传感器与夹爪)、8-10 个全局 RGB-D 相机、2 个麦克风、1 个 haptic 设备(提供力反馈)和踏板组成。所有相机在采集前完成外参标定,数据通过时间戳对齐同步保存。人类示范在同一平台上由操作者佩戴第一视角相机完成。平均培训时间不足 1 小时,成功/失败比例约为 10:1。

关键创新是引入 haptic device 力反馈遥操作代替传统 3D 鼠标或 VR 遥控——后者在 contact-rich 任务中容易引起碰撞和紧急停止。力反馈使操作者能够精确感知接触力,显著提升了 contact-rich 技能(切割、插拔、折叠等)的数据质量。

数据层级结构(Data Hierarchy)

RH20T 按照任务内相似度将数据组织成树状层级。叶节点为具体的人类示范(human demo)与机器人操控序列,共同祖先越近则相关性越强。这种层级设计支持为每条机器人序列配对来自不同视角、场景、操作者的多条人类示范,仅一项任务即可构建出数百万条 <human demo, robot manipulation> 配对样本。

数据多样性设计

数据采集平台与数据统计
图5:数据采集平台示意图。平台配置包括机械臂(含力矩传感器)、手内相机、8-10 个全局相机、麦克风、haptic device 和踏板。图6(右上):多视角 RGBD 融合点云示意——红色锥体表示相机位姿,机器人模型根据关节角度实时渲染,证明所有相机已相对机器人基座坐标系完成标定,且数据在时间域对齐。

03 实验 Experiments

论文以 ACT(Action Chunking with Transformers)作为 baseline,在真实机器人平台上验证 RH20T 数据集对迁移学习与少样本(few-shot)学习能力的提升效果。实验任务为"抓取方块并放置在砝码上",在与 RH20T 不同摄像头视角、桌布纹理和机器人配置的新环境中评估。

实验配置

实验结果表格
表4 & 表5:ACT 在不同训练设置下的成功率(%)。上表为原环境评估(20 次),下表为跨环境泛化评估(新物体/桌布,10 次)。"Pretrain Task" 列标注是否使用 RH20T 同任务或跨任务预训练。

关键结论

实验平台与泛化评估
图7:实验平台与泛化测试物体。(a) 实验平台(Flexiv 臂 + RealSense);(b) 不同砝码(金属、粉色)评估物体泛化;(c) 不同桌布(白色、蓝色)评估场景泛化。这些变量在训练集中均未出现。

消融实验要点

实验系统对比了无预训练(不同 epochs)、仅同任务预训练、同任务+跨任务预训练三类设置,在 10 / 40 / 75 条示范规模下分别评估。结论清晰:无论示范数量多少,RH20T 预训练(尤其是多任务预训练)均能一致提升 Reach、Pick、Place 三个阶段成功率。值得注意的是,该实验所用 RH20T 数据与评估环境在相机视角、桌布、机器人配置上均不同,体现了数据集的跨域迁移价值。

04 局限性 Limitations

说明:以下局限性均为论文作者在 Discussion & Conclusion 中明确陈述(stated)。
数据采集成本高昂

论文明确指出:"the cost of data collection is expensive"。RH20T 涉及多种机器人平台配置、大量人工遥操作、精密传感器标定,难以被资源有限的研究团队复制。这也是当前大规模真实世界机器人数据采集面临的共性挑战。

机器人基础模型(foundation model)能力尚未评估

论文明确指出:"the potential of robotic foundation models is not evaluated on our dataset"。作者尝试复现若干近期机器人基础模型的结果,但"haven't succeeded yet due to the limit of computing resources"。因此本文仅以 ACT 为 baseline 进行少样本评估,数据集对大规模基础模型的提升潜力有待后续研究验证。

操控范围待扩展

当前 RH20T 主要覆盖单臂操控场景。论文展望未来工作时指出,希望将数据集扩展至 "broader robotic manipulation, including dual-arm and multi-finger dexterous manipulation"(双臂操控和多指灵巧手操控)。