DROID: 大规模野外机器人操作数据集

01 动机

通才型机器人操作策略的关键瓶颈是数据——现有数据集几乎全部在少数受控实验室环境中采集，场景单一、任务有限，导致策略在新场景下的泛化极差。如何以可扩展的方式采集真实多样的操作数据，是迈向通用机器人的核心挑战。

"Most existing datasets are mostly trained on data collected in a small number of environments with limited scene and task diversity… collecting robot data remains logistically challenging and expensive outside of controlled lab settings."

DROID 机器人平台 — **DROID 硬件平台：**Franka Panda 7-DoF 机械臂 + Robotiq 2F-85 夹爪，配备两个 ZED 2 外部立体相机和一个腕部 ZED Mini 相机，以及 Oculus Quest 2 遥操作手柄，全套硬件安装于可移动升降桌上，便于在任意真实场景中部署采集。

76,000成功演示轨迹

350 h总交互时长

564不同场景数量

86任务类别（动词）

02 方法

DROID 的核心贡献是建立一套可在任意真实环境（办公室、厨房、户外等）快速部署的标准化采集系统，并在全球多个机构同步运行，以规模化方式覆盖真实世界的场景与任务多样性。

硬件与数据采集流程

每套 DROID 采集站包括：Franka Panda 机械臂（7-DoF）、两个可调角度的 ZED 2 外部立体相机（分辨率 1280×720，15 Hz）、一个腕部 ZED Mini 相机，以及 Oculus Quest 2 头显用于遥操作。数据在 12 个月内由来自 18 个研究室、13 个机构的 50 名采集者在北美、亚洲和欧洲的 52 栋楼宇中完成，每个场景平均采集约 100 条轨迹（约 20 分钟）。每条轨迹记录：3 路立体 RGB 视频流、7D 关节位姿/速度、6D 末端执行器位姿与速度、1D 夹爪状态，以及 1–3 条众包自然语言标注。

动词-物体分布热力图 — **任务分布热力图：**横轴为操作动词（如 pick up, place, open…），纵轴为操作对象，颜色深浅代表轨迹数量。DROID 覆盖了"pick up"、"place"、"push"、"open/close"等多种动词，以及大量不同类别的日常物品，展现出远超既有数据集的任务多样性。

场景多样性设计

DROID 刻意要求每个采集者在不同建筑、不同房间布置下工作，并记录场景类型（实验室、厨房、办公室、餐厅等）及相机外参标定矩阵，以支持后续的跨场景泛化研究。数据集共覆盖 564 个唯一场景，远超此前同类数据集（最大约 24–33 个场景）。

**场景类型分布：**数据集中场景涵盖实验室、厨房、办公室、休息室、图书馆、户外等多种环境，每种场景下均有大量轨迹覆盖，体现了真实世界"in-the-wild"采集的多样性。

策略训练框架（Co-training）

为验证数据集价值，作者训练了一个基于 diffusion policy 的通用操作策略：ResNet-50 视觉编码器（ImageNet 预训练）+ 冻结 DistilBERT 语言嵌入 + U-Net 扩散头，生成 16 步动作序列，输出绝对末端执行器平移、旋转与夹爪动作。训练时采用 50/50 batch mixing：50% 目标任务数据 + 50% DROID 数据联合训练。

03 实验

作者在 6 个真实机器人操作任务上评估了 DROID co-training 的效果，任务从短时程（如关闭华夫饼机）到长时程（如煮扁豆）不等，并在分布内（in-distribution）和分布外（OOD）两种设定下测试泛化能力。

评估任务

Close Waffle Maker（短时程，实验室，70 条演示）
Place Chips on Plate（短时程，实验室，50 条演示）
Put Apple in Pot（中时程，实验室，60 条演示）
Toasting（中时程，实验室，150 条演示）
Clean Up Desk（长时程，办公室，50 条演示）
Cook Lentils（长时程，厨房，50 条演示）

训练数据	分布内成功率	OOD 成功率
No Co-training（仅目标任务数据）	—	—
OXE Co-training（~300 场景，22 种机器人）	—	—
DROID Co-training（564 场景，Franka）	+22%（绝对值，vs. 最优基线）	+17%（绝对值，vs. 最优基线）

注：论文以平均成功率±标准误差展示，未逐任务列出精确数值，上表数字直接引自论文原文。

Co-training 性能对比 — **Co-training 效果对比（Figure 6）：**在 6 个任务上，DROID co-training（绿色）在分布内和 OOD 两个评估设定下均全面超越"No Co-training"和"OXE Co-training"基线。OOD 测试变体包括：干扰物体、新颖物体、未见过的薯片袋包装、相机位置偏移等。

**Cook Lentils 任务上的策略展开示例（Figure 7）：**"Policies co-trained with DROID perform smoother, more precise motions, allowing them to solve long-horizon tasks"——在最具挑战性的长时程任务上，DROID 训练的策略动作更流畅精准，而基线方法则失败。

场景多样性消融（Ablation）

作者从完整 DROID 中抽取两个等大小子集（各 7,362 条轨迹）进行消融：

DROID (7k, 20 Scenes)：仅取出现次数最多的 20 个场景的数据（高密度，低多样性）
DROID (7k, Diverse Scenes)：在全数据集中均匀随机采样，保持高场景多样性

场景多样性消融实验 — **场景多样性消融（Figure 8）：**"Using the split with more diverse scenes yields better performance in the OOD evaluation setting"——在 OOD 设定下，多样场景子集显著优于同等规模的单一场景子集，表明*场景多样性*本身（而非仅靠数据量）是提升泛化的关键因素。

04 局限性

Note：论文未设专门的 Limitations 节；以下限制点部分为作者在附录与讨论中明确陈述（标注"stated"），部分为从系统设计推断（标注"inferred"）。

硬件单一性（stated）

DROID 全部数据均来自 Franka Panda + Robotiq 夹爪平台，而 OXE 等数据集覆盖 22 种机器人形态。这意味着 DROID 训练的策略在跨机器人形态迁移方面的优势尚不明确，泛化范围主要体现在场景和任务层面，而非机器人本体层面。

相机标定精度有限（stated）

论文附录 G 明确指出，外参标定参数"may not always be accurate due to checkerboard misalignment, inconsistent lighting, or errors inherent to OpenCV calibration"，这限制了利用精确三维几何信息进行更高层次空间推理的能力。

开放问题：如何最优利用多样数据（stated）

作者坦承，"how to best make use of such diverse data" 以及 "how can we train policies that perform tasks in new scenes without any in-domain data?" 仍是未解决的开放问题。Co-training 方案（50/50 混合）只是一种基础验证，最优利用方式有待进一步研究。

场景计数方法的保守性（stated）

564 个"唯一场景"采用保守估计方法，若不同研究室将机器人放置于外观相同的实验台，可能被重复计数，导致实际场景多样性略低于标称值。

硬件复制成本（inferred）

DROID 硬件套件（双 ZED 2 + ZED Mini + Oculus Quest 2 + Franka Panda）初始部署成本较高，且需要专业人员进行标定，限制了在资源受限机构中的大规模推广。（此点由作者在论文中隐含提及，属 inferred 推断。）