生成模型 · Generative Models · arXiv 2025

PlayerOne: Egocentric World Simulator

首个以真实人体运动为条件的第一人称世界模拟器
Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao

PlayerOne 以单张第一人称(egocentric)图像和同步外部视角的人体运动序列为输入,生成与人体动作精确对齐的沉浸式视频。 核心创新在于 Part-Disentangled Motion Injection (PMI) 机制和 Scene-Frame Reconstruction (SR) 框架, 在 Diffusion Transformer 基座上实现粗到精(coarse-to-fine)的训练策略,显著优于 Cosmos、Aether 等现有方法。

基座:Wanx2.1 (1.3B) 训练:8×A100,100k steps 输出:49帧 @ 480×480,8 FPS 📄 arXiv:2506.09995 PDF
egocentric world simulator 自我中心视角生成 diffusion transformer motion injection SMPL 人体姿态 视频生成 具身智能 scene consistency

01 动机

现有世界模拟器要么局限于游戏环境(运动方式受限),要么缺乏精细的人体运动控制——玩家只能是"被动旁观者"而非"主动参与者"。 真实、沉浸、无限制的第一人称世界模拟尚未得到充分探索。

"We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments."
PlayerOne teaser
图1:PlayerOne 系统总览。 输入为单张第一人称场景图像,以及包含身体、头部、双手运动的外部视角 SMPL 序列(用户已匿名化), 输出为与真实人体运动精确同步的沉浸式第一人称视频。
DINO 67.8视觉一致性(↑ vs Cosmos-14B 51.6)
FVD 226视频质量(↓ vs Cosmos-14B 302)
MPJPE 127关节误差(↓ vs Cosmos-14B 257)
3.86/4用户评分 Alignment(vs Cosmos-14B 2.71)

02 方法

PlayerOne 以 Wanx2.1(1.3B Diffusion Transformer)为基座,引入两个核心模块: Part-Disentangled Motion Injection (PMI) 用于精确的分部位运动控制, Scene-Frame Reconstruction (SR) 用于保持长视频中的场景一致性。 训练采用粗到精的两阶段策略,先在大规模 egocentric 文本-视频对上做 LoRA 预训练,再冻结 LoRA 仅微调最后六个 block。

PlayerOne framework
图2:PlayerOne 整体框架。 输入图像转为视觉 token;人体运动分解为身体/脚(66维)、头部(3维)、双手(各45维)三组, 分别经独立 3D 卷积编码器处理。头部参数经 Rodrigues 公式转为相机旋转序列,注入 noised 视频 latent。 场景帧重建(SR)通过 CUT3R 渲染 point map 序列,与视频 latent 联合去噪,推理时无需 point map。

Part-Disentangled Motion Injection (PMI)

传统方案将全身运动拼接为单一向量("entangled")送入 ControlNet,导致不同部位(尤其是头部视角与手部动作)互相干扰。 PMI 将运动分为三组:

消融实验表明,PMI 相比 ControlNet 基线将 MPJPE 从 241.73 降至 156.76,FVD 从 287.52 降至 245.72。

Scene-Frame Reconstruction (SR)

为避免长视频中场景漂移,SR 在训练时用 CUT3R 从真值视频渲染 point map 序列, 通过带 5层 3D 卷积 adapter 的专用编码器与视频 latent 联合去噪, 迫使模型在时序上维持三维场景一致性。推理阶段不需要 point map 输入。

Dataset construction pipeline
图3:自动数据集构建流水线。 利用 SAM2 检测、SMPLest-X 提取 SMPL 参数,过滤重投影误差最高的 10% 样本, 从大规模 egocentric-exocentric 配对数据集中构建高质量运动-视频配对, 最终用于 PMI 模块的精调训练。

Coarse-to-Fine 训练策略

阶段一(粗粒度):在 Egovid-5M 等大规模 egocentric 文本-视频对上做 LoRA(rank 128,weight 4)预训练, 使模型具备第一人称视觉先验。
阶段二(细粒度):冻结 LoRA,仅对最后六个 Transformer block 在精标的运动-视频配对数据上微调, 建立精确的运动-视觉对应关系。
此外,采用 Asymmetric Distillation(因果学生由双向教师监督)将推理步数压缩至 50 步,输出帧率保持 8 FPS。

03 实验

评估在自建 egocentric-exocentric 配对测试集上进行,基线包括 Aether、Cosmos(Diff-7B / Diff-14B)。 指标:DINO-Score(视觉一致性)、CLIP-Score(语义匹配)、MPJPE / MRRPE(运动对齐,单位 mm)、FVD(视频质量)、LPIPS(感知质量)。 用户研究由 20 名标注员对 25 组视频进行 1–4 分盲评(Quality / Fidelity / Smoothness / Alignment)。

与 State-of-the-Art 对比(Table 3)

方法 DINO-Score ↑ CLIP-Score ↑ MPJPE ↓ MRRPE ↓ FVD ↓ LPIPS ↓
Aether 38.064.2415.70431.05397.400.1856
Cosmos (Diff-7B) 45.370.3301.92324.12346.090.1630
Cosmos (Diff-14B) 51.679.7256.73253.06302.170.1351
PlayerOne(本文) 67.888.2127.16151.62226.120.0663

用户研究(Table 4,20位标注员,1–4分)

方法Quality ↑Fidelity ↑Smoothness ↑Alignment ↑
Aether1.321.301.311.34
Cosmos (7B)2.072.132.052.09
Cosmos (14B)3.022.942.982.71
PlayerOne 3.593.633.653.86
Qualitative results
图7:定性结果。 以相同首帧图像搭配不同人体运动序列为条件,PlayerOne 能生成各具差异、动作精确对齐的第一人称视频, 且真实地体现了人与环境的交互细节(如手持物体、行走时的视角晃动)。
Comparison with baselines
图8:与基线方法的定性对比。 PlayerOne 在运动对齐精度和视频视觉质量上均显著优于 Cosmos 和 Aether, 尤其在视角转变和手部交互等细粒度动作上更为突出。

消融实验(Table 2,关键组件贡献)

逐步累加各模块,DINO-Score 从基线 51.3 提升至 67.8,MPJPE 从 376.14 降至 127.16:

配置DINO ↑CLIP ↑MPJPE ↓FVD ↓LPIPS ↓
Baseline51.365.6376.14394.160.1421
+ Pretrain56.674.4258.05301.320.1146
+ ControlNet57.175.2241.73287.520.1103
+ PMI (No Camera)60.779.8183.25257.040.0902
+ PMI(含相机编码)62.581.3156.76245.720.0839
+ Filtering64.283.8141.56230.500.0782
+ Recon (DUSt3R)67.587.7129.08228.200.0685
PlayerOne Full (CUT3R) 67.888.2127.16226.120.0663

关键发现:PMI 中相机编码器对视角控制不可或缺(去掉后 MPJPE 从 156.76 上升至 183.25); CUT3R 的 point map 质量优于 DUSt3R,FVD 从 228.20 进一步降至 226.12; 数据过滤(排除重投影误差最高 10%)对运动对齐有显著正效果。

04 局限性

说明:以下局限性由论文作者在 Conclusion 部分明确陈述,标注为 stated; 其余为从系统设计中推断,标注为 inferred
游戏场景表现较差(stated)

模型在游戏风格场景下的生成质量明显弱于真实场景,作者归因于 "imbalanced distribution between realistic and game training data"。 解决方向是扩大游戏场景训练数据的比例。

运动数据依赖外部视角同步采集(inferred)

精调阶段需要 egocentric-exocentric 同步配对视频(内外视角同时录制), 采集成本较高,限制了训练数据规模;自动化流水线虽已过滤质量较低样本,但仍依赖 SMPLest-X 和 CUT3R 的估计精度。

推理不支持 point map 输入(设计取舍,inferred)

SR 模块在训练时利用真值 point map 进行场景对齐,但推理时无法获得真值 point map, 模型依赖训练时建立的隐式一致性。在极端视角变化或大范围场景中,一致性保障有限。

输出分辨率与时长固定(inferred)

训练固定为 480×480、49帧(约6秒),推理输出同样受此约束。 对于更长时序的探索或高分辨率需求,需要额外的工程扩展(如滑动窗口续帧策略)。