Playable Video Generation

01 动机 Motivation

人类从很小就能识别关键物体及其与环境的交互方式——我们能够在从未被明确告知可能动作的情况下，自发地理解和预判视频中的行为。然而，现有视频生成方法要么需要帧级动作标注（限制于游戏或机器人场景），要么仅能用单个标签控制整段视频（无法逐帧实时交互）。

"We aim at allowing a user to control the generated video by selecting a discrete action at every time step as when playing a video game."

teaser — 图1：PVG 任务概览（左）与 CADDY 生成结果（右）。训练阶段仅使用无标注视频序列，自动学习一组离散动作；测试阶段用户逐帧提供动作标签，即可实时控制生成视频，类似于玩游戏的体验。

3数据集：BAIR、Atari Breakout、Tennis

0动作标签监督（全程无需标注）

CVPR2021 Oral 论文

SOTA三个数据集上均超越所有基线

问题的难点

PVG 的核心挑战有两个：（1）动作的语义一致性——在无监督前提下学习到真正有意义的离散动作，而非任意划分；（2）真实视频生成——根据用户提供的离散动作，生成高质量且连贯的视频帧。现实视频中的随机性（如摄像机抖动、光照变化等）进一步增加了用离散标签完整描述帧间过渡的难度。

02 方法 Method

CADDY（Clustering for Action Decomposition and DiscoverY）是一个端到端自监督框架，由四个主模块组成：编码器 E、动作网络 A、循环动力学网络 R、解码器 D。整体以视频帧重建损失为主要驱动，迫使动作网络学到语义一致的离散表示。

architecture — 图2：CADDY 训练流程。编码器 E 从输入序列中提取帧表示 f_t；动作网络 A 推断相邻帧之间执行的离散动作 a_t 及连续变分嵌入 v_t；循环动力学网络 R（基于 convolutional LSTMs）根据当前状态、帧特征和动作预测下一时刻环境状态 s_{t+1}；解码器 D 从状态 s_{t+1} 重建下一帧。重建帧再次送入编码器，计算特征级和动作级辅助损失（绿色模块）。

概率动作网络（Probabilistic Action Network）

动作网络 A 的目标是将帧间过渡分解为：（1）离散动作标签 a_t（高层语义）；（2）连续变分嵌入 v_t（捕捉每个动作执行方式的细节差异）。具体做法是：先用动作状态子网络 A_s 预测当前帧特征 f_t 的动作嵌入 e_t 服从高斯分布；再将前后两帧嵌入之差 d_t = e_{t+1} − e_t 送入分类层；分类层采用 Gumbel-Softmax 实现端到端可微分的离散化，输出动作概率 p_t 及离散标签 a_t。v_t 定义为 d_t 与其对应动作簇质心 c_k 的差，强制 d_t 无法完全从 v_t 中恢复，从而迫使网络学习真正的离散动作。

训练目标

总损失函数由五项组成：

帧重建损失 L_rec^x：基于 VGG-19 感知损失（perceptual loss），在多分辨率金字塔上计算，辅以 L1 损失；
特征重建损失 L_rec^f：最小化输入帧特征与重建帧特征的欧氏距离，保证语义信息保真；
动作匹配损失 L_act：最大化原始序列与重建序列所预测动作概率之间的互信息（mutual information），同时防止动作空间退化（所有帧预测同一动作）；
动作变分损失 L_rec^a：用 KL 散度约束 v_t 分布的一致性；
KL 正则化 L_KL：将 d_t 的后验对齐到标准高斯先验。

混合训练（mixed training）：前 T_f 帧使用真实帧特征，之后切换为重建帧特征，缓解自回归生成中的分布偏移问题。测试时令 v_t = 0（对应后验分布的众数），仅由用户提供离散动作 a_t。

03 实验 Experiments

在三个数据集上评测：BAIR（机器人推物，约44K段30帧视频，256×256）、Atari Breakout（Rainbow DQN采集，1407段约32帧，160×210）、Tennis（YouTube网球比赛，约900段，256×96）。基线方法包括 MoCoGAN、MoCoGAN+、SAVP、SAVP+（增容量版）、SRVP。评估指标涵盖视频质量（LPIPS、FID、FVD）、动作空间质量（Δ-MSE、Δ-Acc）和动作条件生成质量（ADD、MDR）。

BAIR 数据集对比（Table 2）

方法	LPIPS↓	FID↓	FVD↓	Δ-MSE↓ (%)	Δ-Acc↑ (%)
MoCoGAN	0.466	198	1380	88.8	20.7
MoCoGAN+	0.201	66.1	849	98.4	22.9
SAVP	0.433	220	1720	80.9	41.4
SAVP+	0.154	27.2	303	82.0	44.8
SRVP	0.491	224	3540	(100)	(100)
CADDY (Ours)	0.202	35.9	423	54.8	69.0

CADDY 相比最佳基线在 Δ-MSE 上提升 26.1%，在 Δ-Acc 上提升 24.2%，展示出更强的离散动作学习能力。SRVP 因预测整个测试集只有单一动作类别（退化行为），Δ-MSE 和 Δ-Acc 均失去意义。

Atari Breakout 数据集对比（Table 3）

方法	LPIPS↓	FID↓	FVD↓	Δ-MSE↓ (%)	Δ-Acc↑ (%)	ADD (px)↓	MDR (%)↓
MoCoGAN	0.234	99.9	447	81.9	—	46.0	0.795
MoCoGAN+	65.8e-3	10.4	103	57.5	—	54.6	17.4
SAVP	0.239	98.4	487	58.1	—	24.7	21.0
SAVP+	39.3e-3	4.84	104	85.6	—	15.8	51.5
CADDY (Ours)	7.66e-3	0.716	5.94	82.7	91.6	7.29	2.70

CADDY 在 Atari Breakout 上取得最优性能：平均 ADD 仅 7.29 像素，MDR 仅 2.70%，说明学到的动作空间与用户控制平台的运动高度一致。

Tennis 数据集对比（Table 4）

方法	LPIPS↓	FID↓	FVD↓	Δ-MSE↓ (%)	Δ-Acc↑ (%)	ADD (px)↓	MDR (%)↓
MoCoGAN	0.266	132	3400	101	26.4	28.5	20.2
MoCoGAN+	0.166	56.8	1410	103	28.3	48.2	27.0
SAVP	0.245	156	3270	112	19.6	10.7	19.7
SAVP+	0.104	25.2	223	116	33.1	13.4	19.2
CADDY (Ours)	0.102	13.7	239	72.2	45.5	8.85	1.01

Tennis 数据集上，CADDY 在绝大多数指标取得最优，MDR 仅 1.01%，ADD 仅 8.85 像素，显著优于基线，说明能准确生成并追踪球员位置。

action visualization — 图3：CADDY 在三个数据集上学到的动作空间可视化。对每个动作，以初始帧为起点，重复选取该动作生成序列并展示最终帧；下方为对应参考点位移 Δ 的分布。BAIR 上学到了 x、y、z 轴方向移动及无运动动作；Atari Breakout 上学到了三种平台移动及物理规律；Tennis 上学到了前进、后退、横向移动、无运动和击球。

消融实验（Table 1，BAIR 数据集）

变体	G.S.	v_t	L_act	LPIPS↓	FID↓	FVD↓	Δ-MSE↓ (%)	Δ-Acc↑ (%)
(i) 无任何组件	—	—	—	0.263	80.0	1300	69.7	51.2
(ii) + G.S.	✓	—	—	0.209	42.3	571	64.8	37.9
(iii) + G.S. + L_act	✓	—	✓	0.249	76.4	1130	92.7	24.1
(iv) + G.S. + v_t	✓	✓	—	0.245	76.9	1130	93.7	27.6
CADDY (完整)	✓	✓	✓	0.202	35.9	423	54.8	69.0

消融实验证明三个核心组件（Gumbel-Softmax、动作变分嵌入 v_t、互信息损失 L_act）缺一不可：去掉 G.S. 则学到连续而非离散动作；单独使用 L_act 优化会与重建目标冲突导致质量下降；v_t 和 L_act 必须配合使用，才能避免网络将所有信息编码进连续变量而忽略离散动作。

qualitative results — 图4 & Tables 2–4：BAIR（左）和 Tennis（右）数据集上的重建结果对比。CADDY 对感兴趣目标的位置估计更为精准，相比基线方法（MoCoGAN+、SAVP+）具有明显优势。

用户研究（Tennis 数据集）

作者进行了用户研究，要求23名用户从生成序列中辨认出执行的动作（左/右/前进/后退/击球/静止）。CADDY 获得最高的 Fleiss' kappa 一致性（0.469），而基线方法（MoCoGAN: −3.15×10⁻³，MoCoGAN+: −2.84×10⁻³，SAVP: 0.0718，SAVP+: −1.97×10⁻³）均无法达到有意义的一致性，说明 CADDY 学到的动作具有稳定的语义含义。

04 局限性 Limitations

Note: 论文未设专门的 Limitations 节。以下条目标注来源：stated = 作者明确提及；inferred = 从方法设计推断。

仅支持单智能体场景（stated）

CADDY 假设视频中只有单个智能体在环境中行动。论文在 Conclusions 中明确指出："As future work, we plan to extend our method to multi-agent environments."——多球员比赛、多机器人协作等场景当前无法处理。

动作数量 K 需手动指定（inferred）

K 值（动作簇数量）作为超参数在实验前确定，方法本身没有自动选择最优 K 的机制。不同数据集需单独调整，且过小的 K 可能导致语义粒度不足，过大则可能出现冗余动作。

视频分辨率受限（inferred）

基线方法（SAVP、MoCoGAN、SRVP）受内存限制仅能在 64×64 或更低分辨率下运行，CADDY 虽在全分辨率下测试，但当分辨率进一步提升时，convolutional LSTM 的计算成本将显著增加。

自回归误差积累（stated）

测试时采用自回归方式（以重建帧作为下一步输入），论文指出这会引入"shift issue"——网络在训练时未完全暴露于自己生成的图像。混合训练策略（mixed training）可部分缓解但无法完全消除该问题。