机器人操作 · Robotics & Manipulation · arXiv 2025

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

多源自视角预训练 + 运动感知动态表征,赋能灵巧手通用操作
Yankai Fu, Ning Chen, Junkai Zhao, Shaozhe Shan, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

METIS 提出了一套面向灵巧手机器人操作的 Vision-Language-Action (VLA) 训练框架。其核心是 EgoAtlas——一个融合 8 个来源、343K 条轨迹、89.72M 图像-动作对的大规模多源自视角数据集;以及 motion-aware dynamics——一种将视觉动态与手部运动动态联合离散化的紧凑监督信号,有效弥合人类与机器人动作之间的分布差距。

arXiv · Nov 2025 343K 轨迹 · 89.72M 图像-动作对 6 个真实世界灵巧任务 📄 arXiv:2511.17366
vision-language-action model dexterous manipulation egocentric data multi-source pretraining motion-aware dynamics EgoAtlas 机器人操作 VLA

01 动机

灵巧手操作是迈向通用机器人的关键一步,但大规模带动作标注的灵巧操作数据极为稀缺。人类手部动作数据虽然规模庞大、场景多样,却存在视觉外观与机器人差距大、数据格式不统一等挑战,导致现有 VLA 模型难以直接利用。

"The bottleneck of scarce large-scale action-annotated dexterous manipulation data… Human data offers vast scale and diverse manipulation behaviors, [but] prior work faces limited scenarios and large visual gap between human and robots."
EgoAtlas 数据采集系统
图 2:可穿戴手部运动采集系统。使用 Manus Quantum Metagloves(每手 25 个关键点)配合 VIVE 追踪器捕捉 6-DoF 腕部位姿,头戴式自视角相机同步录制第一人称视角图像,构成人机统一的动作-图像对。
343KEgoAtlas 轨迹总数
89.72M图像-动作对总量
8数据来源(人类 + 机器人)
6真实世界灵巧任务

与仅依赖单一机器人数据的方法相比,METIS 的核心洞察是:将人类手部操作数据与机器人遥操作数据在统一动作空间下对齐,能显著提升模型的泛化能力。这一思路类比于大语言模型的预训练范式——先在海量异构数据上学习通用表征,再在下游任务上微调。

02 方法

METIS 由三个核心组件构成:(a) 紧凑型灵巧操作动态表征(motion-aware dynamics),(b) 基于 EgoAtlas 的统一动作空间预训练,(c) 推理-执行一体化(reasoning-acting integration)的下游部署框架。

METIS 整体框架
图 3:METIS 整体框架概览。(a) 将视觉动态(4 个 token,码本大小 16)与运动动态(40 个 token,码本大小 512)分别通过 VQ-VAE 和 RQ-VAE 离散化,构成紧凑的 motion-aware dynamics 表征;(b) 在 EgoAtlas 数据集上以统一动作空间进行大规模预训练;(c) 下游部署时整合 chain-of-thought 推理进行子任务分解,再调用动作执行分支。

EgoAtlas:多源统一自视角数据集

EgoAtlas 整合了来自 8 个来源的数据,包括视觉捕捉系统、VR 数据集、遥操作机器人以及作者自采集的可穿戴传感器数据,共 343K 条轨迹、89.72M 图像-动作对。所有来源均映射到统一动作空间(每手 25 个关节关键点 + 6-DoF 腕部位姿),消除了跨源数据格式不一致的障碍。数据以自视角(egocentric)第一人称视角录制,与机器人实际部署时的观测视角保持一致。

Motion-Aware Dynamics:紧凑的运动感知表征

为了在有限的序列长度内编码丰富的操作信息,作者提出将操作动态分为两个互补组件:

这种离散化表征既保持了信息密度,又与语言模型的 token 序列建模范式天然兼容,无需额外的连续动作解码头。

模型架构:METIS VLA

METIS 基于 Prismatic-7B VLM 构建,采用混合视觉编码器(SigLIP + DINOv2),在 LLaMA tokenizer 中扩展了特殊 dynamics token。推理阶段通过 chain-of-thought 进行子任务分解,将复杂长时序任务分解为可执行的原子动作序列,再由动作解码分支生成具体的关节控制指令。

六个真实灵巧操作任务
图 4:六个真实世界灵巧操作任务。短时序任务(3 个):Pick and Place、Close Laptop、Open Drawer;长时序任务(3 个):Grasp Two Drinks into Basket、Put Cola into Basket、Open Drawer and Put Bread。所有任务均在 22-DoF 灵巧手上执行。

03 实验

实验在 6 个真实世界灵巧操作任务上评估 METIS,涵盖短时序与长时序任务,并测试分布外泛化(unseen backgrounds/lighting/objects)和跨机体迁移能力(22-DoF SharpaWave hands)。每个任务执行 20 次,报告成功率(SR)和阶段成功率(PSR)。

真实世界主实验(Table 2)

任务类型METIS 成功率 (SR)METIS PSR
Pick and Place短时序85%
Close Laptop短时序95%
Open Drawer短时序90%
Grasp Two Drinks into Basket长时序75%
Put Cola into Basket长时序70%85%
Open Drawer and Put Bread长时序75%82.5%

分布外泛化(Table 3)

测试条件成功率 (SR)
Unseen background70%
Unseen lighting65%
Unseen object70%
Cluttered environment70%
样本效率实验结果
图 6:样本效率曲线。METIS 在仅使用 10% 训练数据时即可在 Pick and Place 任务上达到 50% 成功率,展示了多源预训练带来的高效迁移能力。

跨机体迁移(Cross-Embodiment)

METIS 在未经专门训练的情况下迁移至 22-DoF SharpaWave 灵巧手,在 Grasp Apple 任务上达到 85% 成功率,在 Tool Use 任务上达到 70% 成功率,验证了统一动作空间的跨机体泛化能力。

跨机体泛化结果
图 7:跨机体泛化实验。METIS 迁移到 22-DoF SharpaWave 灵巧手,无需重新训练即可执行 Grasp Apple(85% SR)和 Tool Use(70% SR)任务。

消融实验(Tables 4–5)

消融实验系统验证了各组件的贡献:

配置Pick & Place (SR)长时序任务 (SR)
无预训练(from scratch)60%35%
仅人类数据预训练70%60%
完整多源预训练(METIS)85%75%
移除 motion-aware dynamics30%0%

其中最关键的发现是:移除 motion-aware dynamics 后长时序任务成功率骤降至 0%,说明运动动态表征是支撑复杂灵巧操作的核心组件,而非可选附件。

指令跟随能力示例
图 5:语言指令跟随能力。METIS 能够根据颜色描述(如"拿红色水果")识别目标物体并执行对应抓取动作,展示了 VLA 的多模态理解与执行一体化能力。

04 局限性

说明:以下局限性均为论文作者在原文中明确陈述(stated by authors)。
仅依赖自视角观测,难以感知完整物体几何

"Model relies solely on egocentric observations, which may restrict ability to perceive complete object geometry and fine interaction details."——第一人称视角存在自遮挡问题,对需要精确感知物体形状(如透明容器、不规则形状物体)的任务构成挑战。

预训练未纳入大规模第三人称数据

"Pretraining process currently excludes large-scale third-person data available online."——互联网上存在大量人类操作的第三人称视角视频(如 YouTube cooking/crafting),这部分数据未被 EgoAtlas 利用,是未来工作的重要扩展方向。

(推断)评估任务多为桌面场景,移动操作未涉及

(inferred from design)六个评估任务均为桌面固定基座灵巧操作,尚未验证 METIS 在移动机械臂或双臂协同等更复杂场景下的表现。