cs.RO · 机器人学习 · arXiv 2026

EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations

从第一视角人类视频生成高保真灵巧机器人示范
Yangcen Liu · Shuo Cheng · Xinchen Yin · Woo Chul Shin · Alfred Cueva · Yiran Yang · Zhenyang Chen · Chuye Zhang · Danfei Xu  |  Georgia Institute of Technology & Tsinghua University

EgoEngine 将第一视角 RGB 视频转化为可直接用于机器人策略训练的成对示范数据,同时生成 (1) 替换人手为机器人外观、保留场景上下文的高保真观测视频,以及 (2) 在可行性约束下对齐任务物体运动的可执行机器人轨迹,实现无需任何真实机器人遥操作数据的零样本灵巧策略学习。

arXiv 2606.12604 [cs.RO] June 2026 Georgia Tech & Tsinghua 📄 arXiv:2606.12604 🌐 Project Page
以自我为中心视频 imitation learning 灵巧操作 digital twin visual gap action gap MCTS adaptive mode switching visuomotor policy zero-shot robot learning 机器人示范生成

01 动机

灵巧操作的大规模数据采集代价高昂——遥操作依赖专业硬件、复杂接口与高自由度接触控制,难以扩展。相比之下,第一视角人类视频天然记录了多样场景中的接触丰富操作行为,是廉价且可扩展的监督来源。然而,将人类视频直接用于机器人学习面临两大障碍。

"Human videos are not robot demonstrations. The challenge is twofold: visually, human arms and hands occlude the scene and differ substantially from the robot embodiment; on the action side, differences in morphology, kinematics, actuation, and contact dynamics make directly retargeted robot trajectories physically infeasible."

EgoEngine 同时应对两个差距:视觉差距(visual gap)——人类手臂遮挡场景且外观与机器人截然不同;动作差距(action gap)——人类运动直接重定向给机器人后,因形态学、运动学与接触动力学不匹配而不可执行。作者提出以物体为中心的「视觉–动作双支生成管线」,将这两个差距的弥合统一在同一框架内。

EgoEngine teaser:从第一视角人类视频到机器人示范的整体框架
Figure 1 (论文原图):EgoEngine 接收第一视角人类 RGB 视频,构建数字孪生(digital twin),并行执行视觉生成支路(Visual Generation)与动作生成支路(Action Generation),最终输出同步的机器人观测视频与可执行动作轨迹,作为下游 visuomotor 策略的训练数据。
零样本无需任何真实机器人遥操作数据即可学习灵巧策略
0.51全系统平均成功率(4 Aria 任务均值)
22.0%MCTS-style 自适应模式切换相较纯 RL 提升的示范生成效率(Aria)
2×4评估数据集:TACO(2,500 序列)+ Aria(200 段,4 任务)

02 方法

给定第一视角 RGB 视频,EgoEngine 首先构建物体中心的数字孪生(相机几何、深度、6D 物体轨迹、手部与物体 mask),然后并行运行两条支路:动作支路将人类运动转化为可执行机器人动作;视觉支路将人类帧转化为机器人视角观测。两条支路联合输出成对的机器人示范 (õt, ãt)。

EgoEngine 系统架构图
系统架构(论文原图):左侧输入为人类视频,经 FoundationStereo 估计深度、SAM2 生成 mask、FoundationPose 估计 6D 物体轨迹,构建数字孪生。上支路为视觉生成(人手移除 → 机器人渲染 → 遮挡感知融合);下支路为动作生成(以人类为中心的逆运动学重定向 → MCTS-style 自适应物体中心优化)。

数字孪生构建(Human Video to Simulation)

使用 Aria Gen2 眼镜采集同步 RGB 帧与每帧 21 个手部关键点的 3D 姿态。FoundationStereo 估计绝对深度图;SAM2 通过手部关键点提示生成人手 mask,通过首帧点提示追踪任务物体 mask;FoundationPose 在 RGBD 帧上估计时序一致的 6D 物体轨迹 {Tot}Tt=1。上述相机几何、深度、mask、手部姿态、物体网格与物体轨迹共同构成数字孪生。

动作生成:以人类为中心的重定向(Human-Centric Retargeting)

给定人类视频中 5 根手指指尖的位置与朝向 {(pttip,k, Rttip,k)}5k=1 及腕部朝向 Rtwrist,使用 MINK 求解逆运动学(IK):

q*t = arg min Ltip(q; t) + λw Lwrist(q; t),subject to 关节限位与自碰撞约束。

得到参考轨迹 τref = {q*t}Tt=1,作为后续仿真优化的运动先验。

动作生成:MCTS-style 自适应模式切换(Object-Centric Trajectory Optimization)

重定向轨迹在形态学与接触动力学不匹配下往往不可执行。EgoEngine 在仿真中以物体中心目标对轨迹进行细化——用人类视频提取的物体运动 Tot 作为任务级目标,定义物体姿态跟踪误差 et(平移欧式距离 + SO(3) 测地距离的加权组合),超过阈值 C 则提前终止,奖励为 rtobj = C − et

EgoEngine 将长视域轨迹分解为时序 chunk,对每个 chunk 按能力递增顺序选择求解器:

MCTS-style 策略从 Replay 开始,仅在当前模式无法满足物体中心准则时逐级升级,避免对全轨迹施以不必要的强力优化。额外采用双 chunk 联合优化窗口以避免孤立求解的局部极小值。

视觉生成(Visual Generation)

分三步处理每帧:(1) 人手移除(Video Inpainting):用 SAM2 mask 遮盖手臂区域,Inpaint-Anything v2 填充被遮挡的场景与物体内容,得到无示范者帧 Īt;(2) 机器人渲染(Robot Rendering):根据动作支路输出的机器人轨迹,在第一视角渲染机器人 Rt;(3) 遮挡感知融合(Occlusion-Aware Blending):通过两次差分渲染计算可见机器人 mask M̃rt(保持物体不透明、机器人透明/不透明各渲染一次,对比像素差),最终合成观测:

õt = M̃rt ⊙ Rt + (1 − M̃rt) ⊙ Īt

策略蒸馏(Policy Distillation)

聚合所有人类视频生成的合成机器人数据集 D̃robot = {(õ, ã)},使用 HPT 以 ℓ2 动作回归损失训练 visuomotor 策略 πθ,将双支路生成的观测与动作信息蒸馏为闭环控制器。

03 实验

实验围绕三个问题展开:(1) 生成的机器人观测与真实机器人观测在视觉上是否一致?(2) 生成的机器人动作是否可执行且任务对齐?(3) 生成的观测–动作对是否支持零样本策略学习?使用两个数据集:TACO(2,500 段视频)和 Aria 数据集(200 段真实世界第一视角人类视频,4 个任务)。仿真机器人为双臂 RB-Y1(2×7 DoF 手臂 + 2×12 DoF XHands),真实机器人为单臂 RB-Y1。

视觉保真度(Visual Fidelity)——Fréchet Distance (FD↓) 对比

方法ResNet18 FD↓VGG16 FD↓DINOv2 FD↓
Human Video764.5670.2602.9
EgoMimic830.5812.1579.6
VACE (WAN2.1)713.6745.3488.0
Phantom620.0650.8470.6
EgoEngine (Ours)614.7644.2473.1

EgoEngine 在 ResNet18 和 VGG16 上取得最低 FD,与真实机器人观测的特征分布最接近;DINOv2 上与 Phantom 基本持平(473.1 vs. 470.6)。定性对比中,EgoEngine 在机器人–物体接触区域与可见度排序上表现出更强的物理一致性。

动作保真度(Action Fidelity)——仿真成功率 SR↑ 对比

方法TACO SR↑TACO Step↑TACO Reward↑TACO Cost↓Aria SR↑Aria Step↑Aria Reward↑Aria Cost↓
Mink / Replay0.170.290.291.000.100.660.621.00
Spider / MPC0.250.420.397,9230.200.690.654,382
H2S2R / RL0.830.860.7073,6750.900.940.8520,237
EgoEngine (Ours)0.830.840.6734,8420.900.910.8316,560

EgoEngine 在 TACO 与 Aria 上均与强 RL 基线 H2S2R 持平,同时仿真开销减少约一半(TACO:34,842 vs. 73,675;Aria:16,560 vs. 20,237)。在 Aria 示范生成吞吐量上提升 22.0%(从 RL 的 2.36 demos/hour 提升至 2.88 demos/hour,单张 RTX 4090 无并行化)。

EgoEngine 视觉生成结果对比
视觉生成定性对比(论文原图):从左到右依次为 (a) 原始人类视频、(b) EgoMimic 内绘、(c) VACE (WAN2.1)、(d) Phantom、(e) EgoEngine(本文)、(f) 真实遥操作视频。EgoEngine 在机器人–物体接触与遮挡合成上物理一致性更高。

下游策略蒸馏——真实机器人成功率(SR↑)

方法MustardDrawerFlowerHammer
Human Video(直接重定向)0.000.100.000.00
Phantom0.000.050.000.00
Real Robot Teleoperation0.800.800.700.25
EgoEngine (Ours)0.400.350.700.60

EgoEngine 在 Flower 和 Hammer 两项任务上达到或超过真实机器人遥操作示范的成功率,在所有四项任务上取得非平凡的零样本性能。Human Videos 与 Phantom 基本归零,说明仅做视觉转换而不做动作细化对灵巧策略学习远不够。

消融实验(Ablation)——动作支路贡献最大

消融实验:MCTS-style 自适应模式切换可视化
消融图(论文原图 Figure 6):对 Aria 和 TACO 四段示范的轨迹 chunk 可视化自适应模式切换——较易 chunk 由 Replay/MPC 处理,接触丰富的困难 chunk 退化为 RL,印证了按需分配求解器能力的设计逻辑。
配置平均 SR↑(4 Aria 任务)
Human Videos(基线)0.03
+ Visual branch only0.05
+ Action branch only0.43
EgoEngine(完整)0.51

移除动作支路导致最大性能下降(0.51 → 0.05),印证了可执行动作生成是下游策略性能的主要因素,而视觉生成提供额外增益。仅有视觉支路时,策略在多数任务上因抓握姿态不佳而失败。

04 局限性

注:以下局限性均为论文第 6 节作者明确陈述(stated)。
质量局限(Quality):视觉写实性与接触建模误差

视觉支路当前采用基于融合(blending-based)的合成,而非完全学习的真实感渲染;动作生成仍可能受到接触建模误差和 sim-to-real gap 的影响,限制了在接触丰富场景中的精度。

可扩展性局限(Scalability):数字孪生构建仍是瓶颈

EgoEngine 的可扩展性取决于人类视频采集规模,但数字孪生的构建仍是瓶颈——获取高质量物体资产、在严重遮挡下估计物体状态、处理可变形物体均具有挑战性。

效率局限(Efficiency):大规模时仿真优化速度仍慢

基于仿真的轨迹优化在超大规模时仍然缓慢(尽管轨迹可并行化);未来工作可利用预训练模型加速优化过程。