RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot

01 动机 Motivation

现有机器人操控研究主要停留在推送（push）、抓取（pick-place）等简单任务，且几乎仅依赖视觉（visual-only）反馈。然而现实中许多操控技能高度依赖力觉与触觉——如切割、旋转、插拔等 contact-rich 动作。造成这一差距的核心瓶颈有两个：（1）缺乏大规模多样化的真实机器人数据集；（2）现有方法忽略了视觉之外的多模态感知。

"In reality, there are many complex skills, some of which may even require both visual and tactile perception to solve. This paper aims to unlock the potential for an agent to generalize to hundreds of real-world skills with multi-modal perception."

RH20T数据集总览 — **图1：RH20T 数据集总览。**使用多种机器人臂与多样化环境配置采集数据。每条机器人操控序列包含多模态视觉、力觉、音频和动作数据，并通过标定的多视角相机记录。数据集涵盖多样化操控技能，每条序列配有对应的人类示范视频与语言描述。共提供超过 110K 条机器人序列和 110K 条人类示范序列，包含超过 5000 万帧图像及 140+ 项任务。

110K+机器人操控序列

110K+对应人类示范视频

50M+总图像帧数

147任务 / 42 种技能

与同类公开数据集的对比凸显了 RH20T 的全面性：MIME（8.3K 条）、RoboTurk（2.1K 条）、RoboNet（162K 条，但多为随机游走）、BC-Z（60.1K 条，技能单一）均无法同时覆盖多机器人、力觉感知、相机标定与人类示范等维度。RH20T 是目前社区中规模最大、模态最丰富的真实世界机器人操控数据集。

02 方法 Method（数据集构建）

RH20T 的构建核心在于：设计直觉高效的力反馈遥操作平台，建立多模态多视角同步采集流水线，以及完善的数据层级结构（hierarchy），以支持密集的 <human demo, robot manipulation> 配对。

数据集规模对比与硬件配置 — **表1（上）：与同类数据集对比。**RH20T 在序列数量（110K）、机器人种类（12 种）、模态丰富度（RGB-D、力矩、音频、本体感知）、相机外参标定和人类示范等方面全面领先。
**表2（下）：硬件配置详情。**7 种机器人配置涵盖 Flexiv、UR5、Franka、Kuka 等主流机械臂，搭配 ATI、OptoForce 等力矩传感器；表3 给出各模态采样频率（RGB 10Hz、关节力矩 100Hz、触觉 200Hz 等）。

多模态同步采集平台

每套采集平台由机械臂（含力矩传感器与夹爪）、8-10 个全局 RGB-D 相机、2 个麦克风、1 个 haptic 设备（提供力反馈）和踏板组成。所有相机在采集前完成外参标定，数据通过时间戳对齐同步保存。人类示范在同一平台上由操作者佩戴第一视角相机完成。平均培训时间不足 1 小时，成功/失败比例约为 10:1。

关键创新是引入 haptic device 力反馈遥操作代替传统 3D 鼠标或 VR 遥控——后者在 contact-rich 任务中容易引起碰撞和紧急停止。力反馈使操作者能够精确感知接触力，显著提升了 contact-rich 技能（切割、插拔、折叠等）的数据质量。

数据层级结构（Data Hierarchy）

RH20T 按照任务内相似度将数据组织成树状层级。叶节点为具体的人类示范（human demo）与机器人操控序列，共同祖先越近则相关性越强。这种层级设计支持为每条机器人序列配对来自不同视角、场景、操作者的多条人类示范，仅一项任务即可构建出数百万条 <human demo, robot manipulation> 配对样本。

数据多样性设计

任务多样性：48 项来自 RLBench，29 项来自 MetaWorld，70 项自提出，共 147 项任务，涵盖 42 种技能动词。
机器人多样性：4 种机械臂、4 种夹爪、3 种力矩传感器，构成 7 种机器人配置。
环境多样性：超过 50 种桌布纹理材质随机替换，引入干扰物体，由数十名志愿者以多样化轨迹操控。
组合性（Compositionality）：数据集包含短序列单一操控与长序列组合操控（如抓插头→插入插座→开关→开灯）。

数据采集平台与数据统计 — **图5：数据采集平台示意图。**平台配置包括机械臂（含力矩传感器）、手内相机、8-10 个全局相机、麦克风、haptic device 和踏板。**图6（右上）：**多视角 RGBD 融合点云示意——红色锥体表示相机位姿，机器人模型根据关节角度实时渲染，证明所有相机已相对机器人基座坐标系完成标定，且数据在时间域对齐。

03 实验 Experiments

论文以 ACT（Action Chunking with Transformers）作为 baseline，在真实机器人平台上验证 RH20T 数据集对迁移学习与少样本（few-shot）学习能力的提升效果。实验任务为"抓取方块并放置在砝码上"，在与 RH20T 不同摄像头视角、桌布纹理和机器人配置的新环境中评估。

实验配置

硬件：Flexiv 机械臂 + Intel RealSense RGB-D 相机 + Dahuan-95 夹爪
新环境采集：75 条遥操作序列
来自 RH20T 的预训练数据：335 条同任务 + 195 条跨任务（3 个相关任务）
评估：每种配置在真实机器人上重复 20 次；划分三阶段（Reach / Pick / Place）分别统计成功率；时限 60 秒
ACT 超参数：hidden channel 512，feedforward channel 3200，chunk size 20（对应 2s @ 10Hz），训练图像分辨率 640×360，评估采用 temporal ensembling（k=0.01）

实验结果表格 — **表4 & 表5：ACT 在不同训练设置下的成功率（%）。**上表为原环境评估（20 次），下表为跨环境泛化评估（新物体/桌布，10 次）。"Pretrain Task" 列标注是否使用 RH20T 同任务或跨任务预训练。

关键结论

预训练加速收敛：使用 RH20T 预训练后，以 500 epochs 训练的模型表现优于无预训练下 750 epochs 的结果，说明预训练显著提升样本效率。
跨任务预训练进一步提升：加入 3 个相关任务数据的多任务预训练，在所有指标上优于仅使用同任务预训练的结果。
少样本场景优势显著：仅用 40 条新环境示范 + RH20T 预训练的模型，优于使用 75 条示范但无预训练的对应组；进一步降至 10 条示范，多任务预训练效果仍优于 75 条无预训练 baseline。
跨环境泛化（Table V）：在使用新砝码（金属/粉色）和新桌布（白色/蓝色）测试时，使用 RH20T 多任务预训练的模型持续优于无预训练版本，表明数据集增强了模型的泛化能力。

实验平台与泛化评估 — **图7：实验平台与泛化测试物体。**(a) 实验平台（Flexiv 臂 + RealSense）；(b) 不同砝码（金属、粉色）评估物体泛化；(c) 不同桌布（白色、蓝色）评估场景泛化。这些变量在训练集中均未出现。

消融实验要点

实验系统对比了无预训练（不同 epochs）、仅同任务预训练、同任务+跨任务预训练三类设置，在 10 / 40 / 75 条示范规模下分别评估。结论清晰：无论示范数量多少，RH20T 预训练（尤其是多任务预训练）均能一致提升 Reach、Pick、Place 三个阶段成功率。值得注意的是，该实验所用 RH20T 数据与评估环境在相机视角、桌布、机器人配置上均不同，体现了数据集的跨域迁移价值。

04 局限性 Limitations

说明：以下局限性均为论文作者在 Discussion & Conclusion 中明确陈述（stated）。

数据采集成本高昂

论文明确指出："the cost of data collection is expensive"。RH20T 涉及多种机器人平台配置、大量人工遥操作、精密传感器标定，难以被资源有限的研究团队复制。这也是当前大规模真实世界机器人数据采集面临的共性挑战。

机器人基础模型（foundation model）能力尚未评估

论文明确指出："the potential of robotic foundation models is not evaluated on our dataset"。作者尝试复现若干近期机器人基础模型的结果，但"haven't succeeded yet due to the limit of computing resources"。因此本文仅以 ACT 为 baseline 进行少样本评估，数据集对大规模基础模型的提升潜力有待后续研究验证。

操控范围待扩展

当前 RH20T 主要覆盖单臂操控场景。论文展望未来工作时指出，希望将数据集扩展至 "broader robotic manipulation, including dual-arm and multi-finger dexterous manipulation"（双臂操控和多指灵巧手操控）。