METIS: 多源自视角训练的灵巧操作视觉-语言-动作模型

01 动机

灵巧手操作是迈向通用机器人的关键一步，但大规模带动作标注的灵巧操作数据极为稀缺。人类手部动作数据虽然规模庞大、场景多样，却存在视觉外观与机器人差距大、数据格式不统一等挑战，导致现有 VLA 模型难以直接利用。

"The bottleneck of scarce large-scale action-annotated dexterous manipulation data… Human data offers vast scale and diverse manipulation behaviors, [but] prior work faces limited scenarios and large visual gap between human and robots."

EgoAtlas 数据采集系统 — **图 2：可穿戴手部运动采集系统。**使用 Manus Quantum Metagloves（每手 25 个关键点）配合 VIVE 追踪器捕捉 6-DoF 腕部位姿，头戴式自视角相机同步录制第一人称视角图像，构成人机统一的动作-图像对。

343KEgoAtlas 轨迹总数

89.72M图像-动作对总量

8数据来源（人类 + 机器人）

6真实世界灵巧任务

与仅依赖单一机器人数据的方法相比，METIS 的核心洞察是：将人类手部操作数据与机器人遥操作数据在统一动作空间下对齐，能显著提升模型的泛化能力。这一思路类比于大语言模型的预训练范式——先在海量异构数据上学习通用表征，再在下游任务上微调。

02 方法

METIS 由三个核心组件构成：(a) 紧凑型灵巧操作动态表征（motion-aware dynamics），(b) 基于 EgoAtlas 的统一动作空间预训练，(c) 推理-执行一体化（reasoning-acting integration）的下游部署框架。

**图 3：METIS 整体框架概览。**(a) 将视觉动态（4 个 token，码本大小 16）与运动动态（40 个 token，码本大小 512）分别通过 VQ-VAE 和 RQ-VAE 离散化，构成紧凑的 motion-aware dynamics 表征；(b) 在 EgoAtlas 数据集上以统一动作空间进行大规模预训练；(c) 下游部署时整合 chain-of-thought 推理进行子任务分解，再调用动作执行分支。

EgoAtlas：多源统一自视角数据集

EgoAtlas 整合了来自 8 个来源的数据，包括视觉捕捉系统、VR 数据集、遥操作机器人以及作者自采集的可穿戴传感器数据，共 343K 条轨迹、89.72M 图像-动作对。所有来源均映射到统一动作空间（每手 25 个关节关键点 + 6-DoF 腕部位姿），消除了跨源数据格式不一致的障碍。数据以自视角（egocentric）第一人称视角录制，与机器人实际部署时的观测视角保持一致。

Motion-Aware Dynamics：紧凑的运动感知表征

为了在有限的序列长度内编码丰富的操作信息，作者提出将操作动态分为两个互补组件：

视觉动态（Visual Dynamics）：通过 VQ-VAE 将帧间视觉变化编码为 4 个 token，码本大小为 16，捕捉场景层面的状态变化。
运动动态（Motion Dynamics）：通过 RQ-VAE 将手部关键点轨迹编码为 40 个 token，码本大小为 512，捕捉精细的手指运动模式。

这种离散化表征既保持了信息密度，又与语言模型的 token 序列建模范式天然兼容，无需额外的连续动作解码头。

模型架构：METIS VLA

METIS 基于 Prismatic-7B VLM 构建，采用混合视觉编码器（SigLIP + DINOv2），在 LLaMA tokenizer 中扩展了特殊 dynamics token。推理阶段通过 chain-of-thought 进行子任务分解，将复杂长时序任务分解为可执行的原子动作序列，再由动作解码分支生成具体的关节控制指令。

六个真实灵巧操作任务 — **图 4：六个真实世界灵巧操作任务。**短时序任务（3 个）：Pick and Place、Close Laptop、Open Drawer；长时序任务（3 个）：Grasp Two Drinks into Basket、Put Cola into Basket、Open Drawer and Put Bread。所有任务均在 22-DoF 灵巧手上执行。

03 实验

实验在 6 个真实世界灵巧操作任务上评估 METIS，涵盖短时序与长时序任务，并测试分布外泛化（unseen backgrounds/lighting/objects）和跨机体迁移能力（22-DoF SharpaWave hands）。每个任务执行 20 次，报告成功率（SR）和阶段成功率（PSR）。

真实世界主实验（Table 2）

任务	类型	METIS 成功率 (SR)	METIS PSR
Pick and Place	短时序	85%	—
Close Laptop	短时序	95%	—
Open Drawer	短时序	90%	—
Grasp Two Drinks into Basket	长时序	75%	—
Put Cola into Basket	长时序	70%	85%
Open Drawer and Put Bread	长时序	75%	82.5%

分布外泛化（Table 3）

测试条件	成功率 (SR)
Unseen background	70%
Unseen lighting	65%
Unseen object	70%
Cluttered environment	70%

样本效率实验结果 — **图 6：样本效率曲线。**METIS 在仅使用 **10% 训练数据**时即可在 Pick and Place 任务上达到 50% 成功率，展示了多源预训练带来的高效迁移能力。

跨机体迁移（Cross-Embodiment）

METIS 在未经专门训练的情况下迁移至 22-DoF SharpaWave 灵巧手，在 Grasp Apple 任务上达到 85% 成功率，在 Tool Use 任务上达到 70% 成功率，验证了统一动作空间的跨机体泛化能力。

跨机体泛化结果 — **图 7：跨机体泛化实验。**METIS 迁移到 22-DoF SharpaWave 灵巧手，无需重新训练即可执行 Grasp Apple（85% SR）和 Tool Use（70% SR）任务。

消融实验（Tables 4–5）

消融实验系统验证了各组件的贡献：

配置	Pick & Place (SR)	长时序任务 (SR)
无预训练（from scratch）	60%	35%
仅人类数据预训练	70%	60%
完整多源预训练（METIS）	85%	75%
移除 motion-aware dynamics	30%	0%

其中最关键的发现是：移除 motion-aware dynamics 后长时序任务成功率骤降至 0%，说明运动动态表征是支撑复杂灵巧操作的核心组件，而非可选附件。

指令跟随能力示例 — **图 5：语言指令跟随能力。**METIS 能够根据颜色描述（如"拿红色水果"）识别目标物体并执行对应抓取动作，展示了 VLA 的多模态理解与执行一体化能力。

04 局限性

说明：以下局限性均为论文作者在原文中明确陈述（stated by authors）。

仅依赖自视角观测，难以感知完整物体几何

"Model relies solely on egocentric observations, which may restrict ability to perceive complete object geometry and fine interaction details."——第一人称视角存在自遮挡问题，对需要精确感知物体形状（如透明容器、不规则形状物体）的任务构成挑战。

预训练未纳入大规模第三人称数据

"Pretraining process currently excludes large-scale third-person data available online."——互联网上存在大量人类操作的第三人称视角视频（如 YouTube cooking/crafting），这部分数据未被 EgoAtlas 利用，是未来工作的重要扩展方向。

（推断）评估任务多为桌面场景，移动操作未涉及

（inferred from design）六个评估任务均为桌面固定基座灵巧操作，尚未验证 METIS 在移动机械臂或双臂协同等更复杂场景下的表现。