机器人 · Robotics · arXiv 2025

Humanoid Everyday:面向开放世界类人机器人操作的综合数据集

10.3k 条轨迹 · 260 个任务 · 超过 300 万帧 · 云端评测平台
Zhenyu Zhao, Hongyi Jing, Xiawei Liu, Jiageng Mao, Abha Jha, Hanwen Yang, Rong Xue, Sergey Zakharov, Vitor Guizilini, Yue Wang

Humanoid Everyday 是目前最大规模的类人机器人操作数据集之一,覆盖 260 个任务、7 大类别,采集自真实世界中的多模态传感器(RGB、深度、LiDAR、触觉),并附带自然语言标注与云端策略评测平台,旨在推动通用人形机器人能力的研究。

2025年10月 260 tasks · 10.3k trajectories Unitree G1 & H1 📄 arXiv:2510.08807
humanoid robot manipulation dataset teleoperation imitation learning dexterous manipulation 机器人数据集 VLA 人机交互 policy evaluation 云端评测平台

01 动机

通用人形机器人的进步依赖于大规模、多样化的数据,而现有数据集存在明显短板:任务种类少、传感器模态单一、缺乏标准化评测手段。Humanoid Everyday 旨在从根本上弥补这些缺口。

"现有机器人操作数据集往往局限于桌面操作场景,且大多基于非人形平台,难以捕捉类人机器人在真实世界中面临的高自由度、多任务挑战……我们提出 Humanoid Everyday——一个大规模、多模态的人形机器人操作数据集,覆盖 dextrous object manipulation、human-humanoid interaction 与 locomotion-integrated actions。"
Humanoid Everyday 数据集总览
图1:数据集总览。Humanoid Everyday 覆盖 7 大类人形操作任务,提供丰富的多模态信息,并配备云端评测平台,支持标准化策略部署与协作研究。
10.3k条轨迹(trajectories)
3M+帧数据(frames)
260个独特任务(unique tasks)
7大任务类别

三大核心贡献

02 方法

数据集的核心是一套高效的采集系统:基于 Apple Vision Pro 的遥控接口 + 异步多进程流水线,搭载 Unitree G1/H1 两款人形机器人,以 30Hz 频率同步采集多模态传感数据。

硬件平台

Unitree G1(29-DoF)

  • 7-DoF 三指灵巧手(dexterous hands),内置触觉传感器
  • Intel RealSense RGB-D 相机 + Livox LiDAR 系统
  • 总动作空间维度:28 DoFs

Unitree H1(27-DoF)

  • 6-DoF INSPIRE 手爪
  • Intel RealSense RGB-D 相机 + Livox LiDAR 系统
  • 支持 Loco-Manipulation(行走中操作)任务

遥控接口(Teleoperation Interface)

操作员佩戴 Apple Vision Pro,利用其底部摄像头实时捕捉手腕与手指关键点;手指动作经由 dex-retargeting 系统映射到机器人灵巧手,手腕姿态则经基于 Pinocchio 的逆运动学算法(IK)转化为关节控制指令。

高效采集流水线

数据采集流水线架构图
图2:数据采集流水线。将 IO 数据流、IK 计算与机器人关节控制解耦到独立进程,并通过共享内存缓冲区实现低延迟通信,配合多进程与异步 IO 确保高频遥控与高质量数据采集。
流水线性能对比
图3:性能对比。与 Unitree 官方遥控系统相比,本文流水线将控制延迟从 500ms 降至 2ms,数据采集时间减半。
"Our pipeline halves data collection time compared to the official Unitree teleoperation system, while the control delay decreases from 500 ms to 2 ms."

任务分类体系

任务分布图
图4:任务与技能类别分布。260 个任务按难度和场景分为 7 大类,每类均含约 40 条采集轨迹。

云端评测平台

云端评测平台
图5:云端评测平台。研究者可通过云端接口将策略部署到真实人形机器人,无需自备硬件,支持标准化、可复现的实验流程。

03 实验

在 7 类任务的代表性子集上,对 7 种主流 imitation learning 策略进行系统评测,每种策略每个任务执行 10 次试验,成功率(success rate)为核心指标。

实验任务设置
图6:实验任务示例。7 大类别中各选取代表性任务;黄色区域为任务执行范围(含轻微位置扰动),箭头示意机器人手臂轨迹。

主要策略性能对比(成功率 %)

策略 / Method Articulate Tool Use Basic Deformable HRI Loco-Manip High Prec. 平均
Diffusion Policy100%0%30%0%40%30%0%29%
DP390%70%20%20%40%0%0%34%
ACT100%0%70%0%70%0%0%34%
OpenVLA70%30%30%40%60%30%10%39%
π₀-FAST100%40%60%20%30%10%0%37%
π₀.₅100%40%30%40%40%0%0%36%
GR00T N1.5100%0%80%50%100%30%0%51%

GR00T N1.5 在平均成功率上以 51% 领先所有方法,尤其在 Articulated Manipulation 和 Human-Robot Interaction 任务上达到满分(100%)。High-Precision Manipulation 类别对所有策略均构成极高挑战,几乎所有方法均为 0%。

Humanoid Everyday 作为预训练 Prior 的消融实验

预训练消融实验
图7:预训练消融对比。对比直接任务特定 fine-tuning 与先在 Humanoid Everyday 上预训练再 fine-tuning 的两阶段方案,结果显示以本数据集为 prior 可显著提升目标任务性能。

两阶段 fine-tuning(先在 Humanoid Everyday 预训练,再迁移到目标任务)优于直接 fine-tuning,验证了本数据集作为通用 humanoid prior 的价值。

评测平台运行情况

04 局限性

注:以下局限性均由论文作者明确陈述(Discussion and Conclusion 节),并非推断。
高维动作空间导致端到端策略性能普遍偏低

"all the end-to-end imitation policies struggle in humanoid manipulation tasks due to the high-dimensional action space in our dataset"——类人机器人 28 DoFs 的动作空间远超桌面机器人,现有策略架构尚未充分适配。

Loco-Manipulation 任务中点云输入退化

在机器人需要移动的 Loco-Manipulation 任务中,点云帧间变化剧烈,3D 输入的可靠性低于 RGB 图像,DP3 等依赖点云的方法在该类任务成功率为 0%。

高精度操作任务对所有策略均构成极高挑战

"nearly all policies achieve a 0% success rate" on high-precision tasks——现有模型缺乏 fine-grained visuospatial perception,无法完成如"将玫瑰插入花瓶"等精密操作。

OpenVLA 在高频数据上训练效果差

"OpenVLA does not compress the action space and thus when trained on high-frequency 30 Hz data, it often fails to produce meaningful motions"——不压缩动作空间的 VLA 方法对高频率数据适应性不足。

云端平台暂不支持场景自动复位

"our cloud-based evaluation system does not yet support automatic scene resetting, as current imitation learning policies are not sufficiently robust for humanoids to recover the environments without human assistance"——每次评测后场景仍需人工重置。

需要更专门化的模型设计

现有评测仅覆盖已有 imitation learning 架构,"their performance degrades on more challenging tasks due to the high dimensionality of humanoid action spaces, indicating the need for more specialized model designs"。