EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

01 动机

机器人灵巧操作长期受限于高质量演示数据的匮乏。现有数据集要么规模小、任务单一，要么缺乏精细的手指级追踪信息，难以支持泛化能力强的策略学习。人类每天进行大量灵巧的手部操作，如何高效捕捉这些数据并用于机器人学习，是该领域的核心挑战。

"EgoDex contains 829 hours of egocentric video with paired 3D hand and finger tracking data, covering 194 tabletop manipulation tasks with household objects."

EgoDex 数据集示例 — EgoDex 数据集中 9 种灵巧操作行为的示例，包括拉链、取书、拧螺丝、折叠、整理、开盒、系鞋带等。数据使用 Apple Vision Pro 在第一视角下采集，配合 ARKit 产品级手部姿态追踪。

829hegocentric 视频时长

338K任务演示数量

194桌面操作任务种类

90M视频总帧数

与现有数据集的对比

EgoDex 在规模和标注质量上均大幅超越现有的机器人操作与人类手部交互数据集：

数据集	演示数量	任务数	帧数	灵巧手标注
DROID	76k	86	19M	否
Ego4D (HOI)	89k	n/a	21M	否
EgoDex	338k	194	90M	是

在动词多样性上，"most verbs in EgoDex are above the 10³ mark"，而 DROID 中"many verbs are below the 10¹ mark"。

02 方法

EgoDex 的核心贡献分为两部分：一是大规模数据采集流程，二是基于数据集建立的两个 benchmark 及相应的模仿学习基线模型。采集使用 Apple Vision Pro 配合 visionOS 2 ARKit，无需额外硬件，直接采集裸手演示。

数据采集流程

手部骨骼追踪示意图 — 左：EgoDex 追踪的身体骨骼关节，每只手追踪 25 个关节，包含 3D 位置与方向。右：多种灵巧操作行为的演示帧。数据模态包括 1920×1080 RGB 视频（30Hz）、相机内外参、上半身关节的 3D 位置和朝向，以及自然语言任务标注。

采集设备：Apple Vision Pro + visionOS 2，利用 ARKit 生产级姿态追踪，无需标记或额外传感器。
动作表示：48 维向量，涵盖 2 只手 × (3D 腕部位置 + 6D 腕部朝向 + 每手 5 个指尖的 3D 位置)。
语言标注：使用自然语言描述任务，并冻结 CLIP encoder 进行语言条件化。
任务构成：76 对可逆任务（如充电/断电）、28 个无需重置任务（如抛球接球）、14 个需要重置的任务。

Benchmark 设计

Benchmark 1：Dexterous Trajectory Prediction

给定图像观测、骨骼姿态和自然语言描述，预测手部轨迹。评价指标为预测轨迹与真实轨迹之间的平均距离（Avg Distance）和终点距离（Final Distance），支持 K 次采样的最优值（K=1, 10）。

Benchmark 2：Inverse Dynamics

给定起始帧和目标帧的图像观测，预测两帧之间的手部运动。相当于视觉目标条件化策略（visually goal-conditioned policy），无需语言描述。

模型架构

实验评估了两类架构与三种预测头的组合：

Decoder-only (Dec)：自回归 Transformer 解码器，直接预测动作序列。
Encoder-Decoder (EncDec)：双向 Transformer encoder 提取上下文表征，再经解码器生成轨迹。
预测头：BC（Behavior Cloning，均方误差损失）、DDPM（去噪扩散概率模型）、FM（Flow Matching）。

视觉编码器使用预训练 ResNet（冻结），输入分辨率 224×224。训练配置：50,000 步，batch size 2,048（8 块 A100 各 256），学习率 1e-4（Adam），每个模型约训练 72 小时。

03 实验

在两个 benchmark 上系统评估了架构选择、预测时域、视觉目标条件化以及数据规模的影响。指标为手腕和指尖位置的平均距离（Avg Distance）和终点距离（Final Distance），单位为米，越低越好。

架构对比（2 秒预测时域）

模型	Avg Distance K=1	Avg Distance K=10	Final Distance K=1	Final Distance K=10
Dec + BC	0.045m	0.045m	0.062m	0.062m
Dec + DDPM	0.053m	0.041m	0.071m	0.044m
Dec + FM	0.052m	0.040m	0.071m	0.043m
EncDec + BC	0.044m	0.044m	0.060m	0.060m
EncDec + DDPM	0.052m	0.039m	0.071m	0.043m
EncDec + FM	0.051m	0.038m	0.070m	0.041m

预测时域的影响（Decoder + BC）

预测时域	Avg Distance	Final Distance
H=30 (1 秒)	0.031m	0.049m
H=60 (2 秒)	0.045m	0.062m
H=90 (3 秒)	0.053m	0.069m

视觉目标条件化（Inverse Dynamics Benchmark）

加入目标图像后，平均距离从 0.045m 降至 0.035m（降低 22%），终点距离从 0.062m 降至 0.029m（降低 53%），目标图像对性能提升效果显著。

数据规模的影响

数据规模与性能关系 — 训练数据量与模型性能（Avg Distance / Final Distance）的关系，对数坐标。性能随数据规模增加单调提升，表明更大规模数据可带来持续收益。

模型大小

500M 参数模型与 200M 参数基线性能相同（Avg Distance 均为 0.045m，Final Distance 均为 0.062m），说明在当前数据规模下中等大小模型已足够。

分布外（OOD）任务表现

模型预测轨迹可视化 — Dec + BC 模型（2 秒时域）的预测可视化：蓝色轨迹为真实手部运动，红色轨迹为模型预测。展示了 12 个不同任务的手腕与指尖位置预测效果。

在 6 个 OOD 任务上，模型表现出一定的泛化能力，但不同任务差异较大：

OOD 任务	Avg Distance
Jigsaw Puzzle	0.047m
Knit Scarf	0.064m
Blowdry Hair	0.083m
Stamp Paper	0.099m

消融实验结论

生成式预测头（DDPM、FM）在多次采样（K=10）时优于确定性 BC，表明在多模态操作轨迹的建模上，概率模型更有优势。视觉目标图像对 inverse dynamics 任务的提升最为显著。

04 局限性

Note: 以下局限性均为论文作者明确陈述（stated by the authors）。

场景多样性不足

论文原文指出："EgoDex has significant diversity across tasks and manipulation behaviors, it is limited in background and scene diversity."数据采集在有限的室内场景中进行，背景视觉多样性受限，可能影响策略在真实多样环境中的泛化能力。作者提出未来将通过程序化背景随机化和在更多样化环境中采集数据来解决此问题。

手部追踪精度受限于遮挡与高速运动

论文指出："dexterous annotations can also be imperfect, especially during heavy occlusion or very high speed motions, as they are themselves model predictions."手部姿态标注本身是模型预测结果（非光学标记捕获），在重度遮挡或快速运动场景下可能存在误差，进而影响策略学习质量。

尚未完成人-机器人迁移验证

论文主要评估手部轨迹预测 benchmark，尚未直接展示在真实机器人上的端到端操作验证。人-机器人的形态差异（embodiment gap）、视角差异等问题仍需后续工作解决。

模型规模与数据规模未达瓶颈

实验显示 500M 参数模型与 200M 参数基线性能相同，表明当前数据规模下更大模型无法带来收益。但这也意味着随着数据规模进一步增大，更大模型或许才能释放潜力，数据-模型协同扩展的最优策略仍需探索。