CVPR 2022

Playable Environments:
Video Manipulation in Space and Time

从单帧图像构建可交互的三维"可玩环境"
Willi Menapace · Stéphane Lathuilière · Aliaksandr Siarohin · Christian Theobalt · Sergey Tulyakov · Vladislav Golyanik · Elisa Ricci

本文提出 Playable Environments (PE) 框架——给定单张初始帧,用户可通过离散动作控制场景中每个玩家的运动、自由操控相机视角,并为任意对象指定外观风格,从而像玩电子游戏一样与真实视频场景交互。系统在单目视频上无监督训练,无需任何动作标注。

CVPR 2022 Tennis · Minecraft 数据集 无监督动作学习 📄 arXiv:2203.01914 PDF
playable environments neural radiance fields video generation camera control action learning 可交互视频生成 三维场景操控 非刚性NeRF

01 动机

视频记录的是静态的事件副本。人们希望能像观看网球比赛时那样,随意改变球员的动作、调整相机角度、切换场地风格——这需要在三维空间中理解并重建场景,同时提供直观的交互界面,如同操控电子游戏。现有方法各有局限:

"We call these representations Playable Environments (PE)... [they] encapsulate and extend representations built by several prior image or video manipulation methods."
Playable Environments teaser
可玩环境示意。给定单张初始帧,用户可通过指定离散动作控制球员移动,操控相机轨迹改变视角,并为球员和球场指定风格——整个过程像玩视频游戏,但场景是真实的。(图源:论文 Figure 1)

论文定义了可玩环境需满足的六项核心特性:

Playability:离散动作控制
Camera control:相机位姿显式控制
Multi-object:显式建模每个对象
Deformable objects:可变形对象(人体)
Appearance changes:外观多样性建模
Robustness:对定标/定位误差鲁棒
43场网球比赛(12h 视频)
1hMinecraft 合成视频

02 方法

框架采用编码器-解码器结构,核心由两个模块构成:Synthesis Module(合成模块)负责从场景状态渲染图像;Action Module(动作模块)负责在状态空间中学习并预测用户动作。训练分两阶段进行,全程仅依赖重建损失,无需人工动作标注。

Framework overview
框架总览。编码器 E 为场景中每个对象提取环境状态(位置 x、风格 w、姿态 π);合成模块(NeRF-like)从状态与相机参数重建帧;动作模块在瓶颈层学习离散动作标签,推理时由用户指定动作以控制生成内容。(图源:论文 Figure 2)

Synthesis Module:组合式非刚性 NeRF

合成模块以 NeRF 为基础架构,实现相机控制 ⑵。每个对象由独立的 MLP V 参数化的 feature field 建模,各 field 以对象位置为中心、受 bounding volume 约束,从而支持多对象建模 ⑶。

为处理可变形对象(如人体)⑷,引入 ray bending network B:给定姿态描述子 π 与采样点 x_p,通过 B 将其映射到正则空间坐标 x̃_p = x_p + B(x_p, π_t),从而在正则空间中编码对象几何。

为建模外观多样性 ⑸,受 AdaIN 启发,在 V 的 feature prediction branch 中嵌入风格调制层:h̃_t = γ(w_t) h_t + β(w_t),其中 γ, β 为可训练线性层,风格码 w_t 只调制颜色特征而不影响几何。

Synthesis module architecture
合成模块。两步流程:首先用带 bending network B 的非刚性 NeRF 生成特征图;再将特征图送入 ConvNet F(Feature Renderer)输出最终帧图像。Feature Renderer 通过跨像素建模弥补定标噪声导致的模糊,同时因在低分辨率采样 NeRF 光线而显著降低显存消耗。(图源:论文 Figure 3)

Action Module:状态空间离散动作学习

动作模块由 Action Network A 和 Dynamics Network R 组成。A 给定相邻状态 (s_t, s_{t+1}),输出离散动作 a_t ∈ {1,...,K} 与 action variability embedding v_tR(LSTM)以 (s_t, a_t, v_t) 为输入自回归预测下一状态。

为使动作与相机朝向一致(符合游戏直觉),Dynamics Network 预测相机坐标系下的位移 Δ,再通过旋转矩阵 M 转换:x̂_{t+1} = x_t + MΔ

Action module
动作模块。Action Network A 从相邻状态推断离散动作标签 a_t 及 variability v_t;Dynamics Network R 结合 s_t, a_t, v_t 预测 s_{t+1}。推理时由用户指定 a_tv_t 置零。(图源:论文 Figure 4)

训练策略

阶段一(合成模块):用感知损失(VGG perceptual loss)+ L2 像素重建损失训练编码器与合成模块。为避免风格 w 和姿态 π 解耦失败,在每个序列的时间维度上打乱 w 的顺序再送入合成模块。

阶段二(动作模块):联合优化四项损失——重建损失 L_rec、信息论动作学习损失 L_act(最大化互信息)、Δ-MSE 软损失 L_Δ(同类动作应对应相似位移)、以及对抗 Temporal Discriminator D(判别真实/重建状态序列,促使动作生成真实肢体动作)。

03 实验

在三个数据集上评估:Tennis(43场网球赛,12h真实视频)、Minecraft(1h合成视频,宽视角运动)、Minecraft Camera(相机运动序列,提供 novel view 真值);另采用 Static Tennis(PVG基准)做方法对比。

与 PVG 方法对比(Static Tennis 数据集)

在 playable video generation 设定(无显式相机控制)下,与 MoCoGAN、SAVP、CADDY 等方法对比:

方法 LPIPS ↓ FID ↓ FVD ↓ Δ-MSE ↓ (%) Δ-Acc ↑ (%) ADD ↓ (px) MDR ↓ (%)
MoCoGAN0.266132340010126.428.520.2
SAVP0.245156327011219.610.719.7
CADDY0.10213.723972.245.58.851.01
Ours0.08915.323732.868.19.470.15

本方法在动作质量指标(Δ-MSE、Δ-Acc)和视频重建质量(LPIPS、MDR)上均显著优于 CADDY,动作与球员运动的一致性大幅提升。

与 Baselines 对比(Tennis + Minecraft Camera)

在完整 PE 设定下(多对象、真实相机运动),与基于 CADDY 的多种变体比较。本方法在 Tennis 上 LPIPS=0.181、FVD=485、Δ-MSE=0.293%、Δ-Acc=95.7%、MDR=4.84%,全面超越所有基线;在 Minecraft Camera(相机控制)上 LPIPS=0.242、FID=29.2,而最佳基线 FID≥244——本方法能真正从新视角合成场景,而 CADDY 各变体由于缺乏显式相机模型,无法处理 novel view 生成。

方法 Tennis LPIPS ↓ Tennis FVD ↓ Tennis Δ-Acc ↑ (%) Tennis MDR ↓ (%) MC-Cam LPIPS ↓ MC-Cam FID ↓
CADDY (i)0.31387742.636.90.747306
CADDY (iii) best0.21372757.511.70.669244
Ours0.18148595.74.840.24229.2

用户研究

在 Tennis 数据集上的用户研究中,采用 Fleiss' kappa 衡量动作一致性:本方法 kappa=0.444,最佳基线 kappa=0.353,说明本方法学到的动作空间更清晰、更易于用户一致识别。

Qualitative results
定性重建结果(Tennis + Minecraft)。本方法从第一帧出发,通过离散动作序列重建视频,能正确合成两名球员并准确还原运动轨迹;Minecraft 场景下亦能处理大幅相机运动与多样化玩家外观。(图源:论文定性结果图)
Style and camera manipulation results
风格与相机操控结果(Tennis)。本方法可从新视角合成场景,并将球员及球场外观切换为目标图像中的风格,两种操控均可独立或联合使用。(图源:论文定性结果图)

消融实验

合成模块消融(Minecraft):逐步加入 Multi-object(⑶)、非刚性变形 π(⑷)、风格调制 w(⑸)、Feature Renderer F(⑹)。结果表明:deformation 和 style modulation 对精确合成均不可缺少(⑷⑸),但单独使用会因定标噪声导致模糊;引入 Feature Renderer 后,LPIPS 从 0.350 降至 0.193,FID 从 61.0 降至 16.5,FVD 从 465 降至 289,显著恢复清晰度。

变体Multi ⑶π ⑷w ⑸F ⑹LPIPS ↓FID ↓FVD ↓
(a) NeRF-like0.7353762548
(c) +Multi+π0.6483011818
(e) +Multi+π+w0.35061.0465
Full0.19316.5289

动作模块消融:去掉 Temporal Discriminator D 会导致 FVD 显著上升(动作序列中肢体运动不真实);Δ-MSE 损失 L_Δ 对动作空间质量有正向影响;相机相对坐标预测(Rel.)对于生成视角一致的动作效果至关重要。

04 局限性

说明:以下局限性均为论文作者在 Discussion 节中明确阐述(stated limitations)。
几何固定假设:场景几何不可变

方法假设环境几何在整个训练集中保持不变,因此无法在不同几何的环境中训练(例如在多个不同球场之间)。

Tennis 数据集的"平坦世界"先验

Tennis 数据集中只有相机旋转而无相机平移,导致场地几何恢复不适定。作者为此施加"flat world"先验对几何进行正则化,推理时允许更大范围的相机操控,但代价是当相机位置偏离训练集时背景会被投影到平面上,产生视觉伪影。

薄物体与快速运动导致模糊/缺失伪影

球员肢体、球拍等薄而快速运动的部件仍存在模糊或部件缺失伪影。Tennis 数据集中频繁的运动模糊、小至几像素的肢体、定标噪声均加剧了这一问题,Feature Renderer 只能部分缓解。

动作控制粒度有限:位移驱动而非姿态驱动

动作空间以对象位移 Δ 为核心学习目标,与位置变化弱相关的动作(如挥拍动作)难以被显式控制,用户只能间接影响而无法精确指定。

多对象独立动画:缺乏对象间交互

推理时各对象独立动画,无法捕捉对象间交互(如两位球员同时挥拍击球),可能产生不合理的联合动作。