ICLR 2026 · 机器人 · Robotics

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

首个大规模第一视角灵巧操作数据集,包含手部骨骼追踪
Ryan Hoque*, Peide Huang*, David J. Yoon, Mouli Sivapurapu, Jian Zhang  ·  Apple(*Equal contribution)

EgoDex 是一个使用 Apple Vision Pro 采集的大规模第一视角灵巧操作数据集,包含 829 小时、1080p、30Hz 的视频,338,000 个任务演示,以及 194 种桌面操作任务的完整 3D 手部和手指追踪数据。基于此数据集,作者提出了两个新的 benchmark——手部轨迹预测与逆动力学预测——并训练了多种模仿学习策略,系统评估了数据规模与模型架构的影响。

829 小时视频 338,000 个演示 194 种操作任务 📄 arXiv:2505.11709 GitHub / Dataset
dexterous manipulation egocentric video imitation learning 灵巧手操作 hand tracking Apple Vision Pro trajectory prediction 模仿学习 dataset robotics

01 动机

机器人灵巧操作长期受限于高质量演示数据的匮乏。现有数据集要么规模小、任务单一,要么缺乏精细的手指级追踪信息,难以支持泛化能力强的策略学习。人类每天进行大量灵巧的手部操作,如何高效捕捉这些数据并用于机器人学习,是该领域的核心挑战。

"EgoDex contains 829 hours of egocentric video with paired 3D hand and finger tracking data, covering 194 tabletop manipulation tasks with household objects."
EgoDex 数据集示例
EgoDex 数据集中 9 种灵巧操作行为的示例,包括拉链、取书、拧螺丝、折叠、整理、开盒、系鞋带等。数据使用 Apple Vision Pro 在第一视角下采集,配合 ARKit 产品级手部姿态追踪。
829hegocentric 视频时长
338K任务演示数量
194桌面操作任务种类
90M视频总帧数

与现有数据集的对比

EgoDex 在规模和标注质量上均大幅超越现有的机器人操作与人类手部交互数据集:

数据集演示数量任务数帧数灵巧手标注
DROID76k8619M
Ego4D (HOI)89kn/a21M
EgoDex338k19490M

在动词多样性上,"most verbs in EgoDex are above the 10³ mark",而 DROID 中"many verbs are below the 10¹ mark"。

02 方法

EgoDex 的核心贡献分为两部分:一是大规模数据采集流程,二是基于数据集建立的两个 benchmark 及相应的模仿学习基线模型。采集使用 Apple Vision Pro 配合 visionOS 2 ARKit,无需额外硬件,直接采集裸手演示。

数据采集流程

手部骨骼追踪示意图
左:EgoDex 追踪的身体骨骼关节,每只手追踪 25 个关节,包含 3D 位置与方向。右:多种灵巧操作行为的演示帧。数据模态包括 1920×1080 RGB 视频(30Hz)、相机内外参、上半身关节的 3D 位置和朝向,以及自然语言任务标注。

Benchmark 设计

Benchmark 1:Dexterous Trajectory Prediction

给定图像观测、骨骼姿态和自然语言描述,预测手部轨迹。评价指标为预测轨迹与真实轨迹之间的平均距离(Avg Distance)和终点距离(Final Distance),支持 K 次采样的最优值(K=1, 10)。

Benchmark 2:Inverse Dynamics

给定起始帧和目标帧的图像观测,预测两帧之间的手部运动。相当于视觉目标条件化策略(visually goal-conditioned policy),无需语言描述。

模型架构

实验评估了两类架构与三种预测头的组合:

视觉编码器使用预训练 ResNet(冻结),输入分辨率 224×224。训练配置:50,000 步,batch size 2,048(8 块 A100 各 256),学习率 1e-4(Adam),每个模型约训练 72 小时。

03 实验

在两个 benchmark 上系统评估了架构选择、预测时域、视觉目标条件化以及数据规模的影响。指标为手腕和指尖位置的平均距离(Avg Distance)和终点距离(Final Distance),单位为米,越低越好。

架构对比(2 秒预测时域)

模型Avg Distance K=1Avg Distance K=10Final Distance K=1Final Distance K=10
Dec + BC0.045m0.045m0.062m0.062m
Dec + DDPM0.053m0.041m0.071m0.044m
Dec + FM0.052m0.040m0.071m0.043m
EncDec + BC0.044m0.044m0.060m0.060m
EncDec + DDPM0.052m0.039m0.071m0.043m
EncDec + FM0.051m0.038m0.070m0.041m

预测时域的影响(Decoder + BC)

预测时域Avg DistanceFinal Distance
H=30 (1 秒)0.031m0.049m
H=60 (2 秒)0.045m0.062m
H=90 (3 秒)0.053m0.069m

视觉目标条件化(Inverse Dynamics Benchmark)

加入目标图像后,平均距离从 0.045m 降至 0.035m(降低 22%),终点距离从 0.062m 降至 0.029m(降低 53%),目标图像对性能提升效果显著。

数据规模的影响

数据规模与性能关系
训练数据量与模型性能(Avg Distance / Final Distance)的关系,对数坐标。性能随数据规模增加单调提升,表明更大规模数据可带来持续收益。

模型大小

500M 参数模型与 200M 参数基线性能相同(Avg Distance 均为 0.045m,Final Distance 均为 0.062m),说明在当前数据规模下中等大小模型已足够。

分布外(OOD)任务表现

模型预测轨迹可视化
Dec + BC 模型(2 秒时域)的预测可视化:蓝色轨迹为真实手部运动,红色轨迹为模型预测。展示了 12 个不同任务的手腕与指尖位置预测效果。

在 6 个 OOD 任务上,模型表现出一定的泛化能力,但不同任务差异较大:

OOD 任务Avg Distance
Jigsaw Puzzle0.047m
Knit Scarf0.064m
Blowdry Hair0.083m
Stamp Paper0.099m

消融实验结论

生成式预测头(DDPM、FM)在多次采样(K=10)时优于确定性 BC,表明在多模态操作轨迹的建模上,概率模型更有优势。视觉目标图像对 inverse dynamics 任务的提升最为显著。

04 局限性

Note: 以下局限性均为论文作者明确陈述(stated by the authors)。
场景多样性不足

论文原文指出:"EgoDex has significant diversity across tasks and manipulation behaviors, it is limited in background and scene diversity."数据采集在有限的室内场景中进行,背景视觉多样性受限,可能影响策略在真实多样环境中的泛化能力。作者提出未来将通过程序化背景随机化和在更多样化环境中采集数据来解决此问题。

手部追踪精度受限于遮挡与高速运动

论文指出:"dexterous annotations can also be imperfect, especially during heavy occlusion or very high speed motions, as they are themselves model predictions."手部姿态标注本身是模型预测结果(非光学标记捕获),在重度遮挡或快速运动场景下可能存在误差,进而影响策略学习质量。

尚未完成人-机器人迁移验证

论文主要评估手部轨迹预测 benchmark,尚未直接展示在真实机器人上的端到端操作验证。人-机器人的形态差异(embodiment gap)、视角差异等问题仍需后续工作解决。

模型规模与数据规模未达瓶颈

实验显示 500M 参数模型与 200M 参数基线性能相同,表明当前数据规模下更大模型无法带来收益。但这也意味着随着数据规模进一步增大,更大模型或许才能释放潜力,数据-模型协同扩展的最优策略仍需探索。