Playable Environments: Video Manipulation in Space and Time

01 动机

视频记录的是静态的事件副本。人们希望能像观看网球比赛时那样，随意改变球员的动作、调整相机角度、切换场地风格——这需要在三维空间中理解并重建场景，同时提供直观的交互界面，如同操控电子游戏。现有方法各有局限：

Novel View Synthesis（如 NeRF）：支持静态场景的自由视点渲染，但难以处理动态对象、不支持用户交互。
视频生成方法（如 MoCoGAN、SAVP）：可预测未来帧或动画化对象，但通常缺乏相机控制和多对象支持，不考虑三维本质。
Playable Video Generation（PVG，如 CADDY）：可学习离散动作控制视频，但仅限于二维、单对象、有限相机运动场景。

"We call these representations Playable Environments (PE)... [they] encapsulate and extend representations built by several prior image or video manipulation methods."

Playable Environments teaser — **可玩环境示意。**给定单张初始帧，用户可通过指定离散动作控制球员移动，操控相机轨迹改变视角，并为球员和球场指定风格——整个过程像玩视频游戏，但场景是真实的。（图源：论文 Figure 1）

论文定义了可玩环境需满足的六项核心特性：

⑴Playability：离散动作控制

⑵Camera control：相机位姿显式控制

⑶Multi-object：显式建模每个对象

⑷Deformable objects：可变形对象（人体）

⑸Appearance changes：外观多样性建模

⑹Robustness：对定标/定位误差鲁棒

43场网球比赛（12h 视频）

1hMinecraft 合成视频

02 方法

框架采用编码器-解码器结构，核心由两个模块构成：Synthesis Module（合成模块）负责从场景状态渲染图像；Action Module（动作模块）负责在状态空间中学习并预测用户动作。训练分两阶段进行，全程仅依赖重建损失，无需人工动作标注。

Framework overview — **框架总览。**编码器 E 为场景中每个对象提取环境状态（位置 x、风格 w、姿态 π）；合成模块（NeRF-like）从状态与相机参数重建帧；动作模块在瓶颈层学习离散动作标签，推理时由用户指定动作以控制生成内容。（图源：论文 Figure 2）

Synthesis Module：组合式非刚性 NeRF

合成模块以 NeRF 为基础架构，实现相机控制 ⑵。每个对象由独立的 MLP V 参数化的 feature field 建模，各 field 以对象位置为中心、受 bounding volume 约束，从而支持多对象建模 ⑶。

为处理可变形对象（如人体）⑷，引入 ray bending network B：给定姿态描述子 π 与采样点 x_p，通过 B 将其映射到正则空间坐标 x̃_p = x_p + B(x_p, π_t)，从而在正则空间中编码对象几何。

为建模外观多样性 ⑸，受 AdaIN 启发，在 V 的 feature prediction branch 中嵌入风格调制层：h̃_t = γ(w_t) h_t + β(w_t)，其中 γ, β 为可训练线性层，风格码 w_t 只调制颜色特征而不影响几何。

Synthesis module architecture — **合成模块。**两步流程：首先用带 bending network B 的非刚性 NeRF 生成特征图；再将特征图送入 ConvNet F（Feature Renderer）输出最终帧图像。Feature Renderer 通过跨像素建模弥补定标噪声导致的模糊，同时因在低分辨率采样 NeRF 光线而显著降低显存消耗。（图源：论文 Figure 3）

Action Module：状态空间离散动作学习

动作模块由 Action Network A 和 Dynamics Network R 组成。A 给定相邻状态 (s_t, s_{t+1})，输出离散动作 a_t ∈ {1,...,K} 与 action variability embedding v_t；R（LSTM）以 (s_t, a_t, v_t) 为输入自回归预测下一状态。

为使动作与相机朝向一致（符合游戏直觉），Dynamics Network 预测相机坐标系下的位移 Δ，再通过旋转矩阵 M 转换：x̂_{t+1} = x_t + MΔ。

Action module — **动作模块。**Action Network A 从相邻状态推断离散动作标签 *a_t* 及 variability *v_t*；Dynamics Network R 结合 *s_t, a_t, v_t* 预测 *s_{t+1}*。推理时由用户指定 *a_t*，*v_t* 置零。（图源：论文 Figure 4）

训练策略

阶段一（合成模块）：用感知损失（VGG perceptual loss）+ L2 像素重建损失训练编码器与合成模块。为避免风格 w 和姿态 π 解耦失败，在每个序列的时间维度上打乱 w 的顺序再送入合成模块。

阶段二（动作模块）：联合优化四项损失——重建损失 L_rec、信息论动作学习损失 L_act（最大化互信息）、Δ-MSE 软损失 L_Δ（同类动作应对应相似位移）、以及对抗 Temporal Discriminator D（判别真实/重建状态序列，促使动作生成真实肢体动作）。

03 实验

在三个数据集上评估：Tennis（43场网球赛，12h真实视频）、Minecraft（1h合成视频，宽视角运动）、Minecraft Camera（相机运动序列，提供 novel view 真值）；另采用 Static Tennis（PVG基准）做方法对比。

与 PVG 方法对比（Static Tennis 数据集）

在 playable video generation 设定（无显式相机控制）下，与 MoCoGAN、SAVP、CADDY 等方法对比：

方法	LPIPS ↓	FID ↓	FVD ↓	Δ-MSE ↓ (%)	Δ-Acc ↑ (%)	ADD ↓ (px)	MDR ↓ (%)
MoCoGAN	0.266	132	3400	101	26.4	28.5	20.2
SAVP	0.245	156	3270	112	19.6	10.7	19.7
CADDY	0.102	13.7	239	72.2	45.5	8.85	1.01
Ours	0.089	15.3	237	32.8	68.1	9.47	0.15

本方法在动作质量指标（Δ-MSE、Δ-Acc）和视频重建质量（LPIPS、MDR）上均显著优于 CADDY，动作与球员运动的一致性大幅提升。

与 Baselines 对比（Tennis + Minecraft Camera）

在完整 PE 设定下（多对象、真实相机运动），与基于 CADDY 的多种变体比较。本方法在 Tennis 上 LPIPS=0.181、FVD=485、Δ-MSE=0.293%、Δ-Acc=95.7%、MDR=4.84%，全面超越所有基线；在 Minecraft Camera（相机控制）上 LPIPS=0.242、FID=29.2，而最佳基线 FID≥244——本方法能真正从新视角合成场景，而 CADDY 各变体由于缺乏显式相机模型，无法处理 novel view 生成。

方法	Tennis LPIPS ↓	Tennis FVD ↓	Tennis Δ-Acc ↑ (%)	Tennis MDR ↓ (%)	MC-Cam LPIPS ↓	MC-Cam FID ↓
CADDY (i)	0.313	877	42.6	36.9	0.747	306
CADDY (iii) best	0.213	727	57.5	11.7	0.669	244
Ours	0.181	485	95.7	4.84	0.242	29.2

用户研究

在 Tennis 数据集上的用户研究中，采用 Fleiss' kappa 衡量动作一致性：本方法 kappa=0.444，最佳基线 kappa=0.353，说明本方法学到的动作空间更清晰、更易于用户一致识别。

Qualitative results — **定性重建结果（Tennis + Minecraft）。**本方法从第一帧出发，通过离散动作序列重建视频，能正确合成两名球员并准确还原运动轨迹；Minecraft 场景下亦能处理大幅相机运动与多样化玩家外观。（图源：论文定性结果图）

Style and camera manipulation results — **风格与相机操控结果（Tennis）。**本方法可从新视角合成场景，并将球员及球场外观切换为目标图像中的风格，两种操控均可独立或联合使用。（图源：论文定性结果图）

消融实验

合成模块消融（Minecraft）：逐步加入 Multi-object（⑶）、非刚性变形 π（⑷）、风格调制 w（⑸）、Feature Renderer F（⑹）。结果表明：deformation 和 style modulation 对精确合成均不可缺少（⑷⑸），但单独使用会因定标噪声导致模糊；引入 Feature Renderer 后，LPIPS 从 0.350 降至 0.193，FID 从 61.0 降至 16.5，FVD 从 465 降至 289，显著恢复清晰度。

变体	Multi ⑶	π ⑷	w ⑸	F ⑹	LPIPS ↓	FID ↓	FVD ↓
(a) NeRF-like	—	—	—	—	0.735	376	2548
(c) +Multi+π	✓	✓	—	—	0.648	301	1818
(e) +Multi+π+w	✓	✓	✓	—	0.350	61.0	465
Full	✓	✓	✓	✓	0.193	16.5	289

动作模块消融：去掉 Temporal Discriminator D 会导致 FVD 显著上升（动作序列中肢体运动不真实）；Δ-MSE 损失 L_Δ 对动作空间质量有正向影响；相机相对坐标预测（Rel.）对于生成视角一致的动作效果至关重要。

04 局限性

说明：以下局限性均为论文作者在 Discussion 节中明确阐述（stated limitations）。

几何固定假设：场景几何不可变

方法假设环境几何在整个训练集中保持不变，因此无法在不同几何的环境中训练（例如在多个不同球场之间）。

Tennis 数据集的"平坦世界"先验

Tennis 数据集中只有相机旋转而无相机平移，导致场地几何恢复不适定。作者为此施加"flat world"先验对几何进行正则化，推理时允许更大范围的相机操控，但代价是当相机位置偏离训练集时背景会被投影到平面上，产生视觉伪影。

薄物体与快速运动导致模糊/缺失伪影

球员肢体、球拍等薄而快速运动的部件仍存在模糊或部件缺失伪影。Tennis 数据集中频繁的运动模糊、小至几像素的肢体、定标噪声均加剧了这一问题，Feature Renderer 只能部分缓解。

动作控制粒度有限：位移驱动而非姿态驱动

动作空间以对象位移 Δ 为核心学习目标，与位置变化弱相关的动作（如挥拍动作）难以被显式控制，用户只能间接影响而无法精确指定。

多对象独立动画：缺乏对象间交互

推理时各对象独立动画，无法捕捉对象间交互（如两位球员同时挥拍击球），可能产生不合理的联合动作。