GameFactory: Creating New Games with Generative Interactive Videos

01 动机 Motivation

游戏开发是一项极度耗费人力的过程，生成式视频模型具备自主创作游戏内容的潜力。然而现有方法普遍面临两大核心挑战：动作可控性（精准响应键盘与鼠标输入）和场景泛化性（不局限于固定的游戏风格与场景）。

"Generative videos have the potential to revolutionize game development by autonomously creating new content… GameFactory tackles the critical challenge of scene-generalizable action control, which most existing methods fail to address."

GameFactory teaser：在多种开放域场景中进行动作控制游戏视频生成 — **Figure 1**（论文原图）：GameFactory 在多样化开放域场景（森林、海洋、城市等）中生成动作可控的游戏视频。黄色按钮表示**已按下的键盘键位**，箭头表示**鼠标移动方向**。该框架仅在小规模 Minecraft 数据上学习动作控制，却能将控制能力迁移至全新开放域场景，生成全新游戏体验。

70hGF-Minecraft 数据集时长

FID 121.18多阶段训练场景泛化 FID↓

Cam 0.0997相机姿态误差↓（场景泛化）

∞自回归无限长度视频生成

现有方法的不足

以往的游戏视频生成工作（如 GameNGen、DIAMOND、Genie 等）大多在固定游戏环境下训练，动作控制能力与特定游戏风格深度耦合，无法泛化到新场景。此外，人类采集数据（如 VPT 数据集）存在严重的行为偏差：前进键（W）出现频率高达 50.11%，而后退键仅占 0.32%，导致模型难以学到均匀分布的动作控制能力。

GameFactory 整体方案示意图 — **Figure 2**（论文原图）：GameFactory 的整体方案示意。蓝色上方展示预训练模型在开放域的强大生成能力；绿色下方展示从少量游戏数据中学习动作控制模块，并"插件式"集成到预训练模型中，实现新游戏创建。

02 方法 Method

GameFactory 的核心创新在于三个相互配合的模块：动作控制模块（精准处理键盘与鼠标输入）、自回归长视频生成（支持无限长度交互视频）、以及style-action 解耦策略（通过多阶段训练使动作控制脱离游戏风格绑定）。

动作控制模块架构图 — **Figure 3**（论文原图）：动作控制模块的详细架构。**键盘输入**（离散信号）通过 cross-attention 与视频特征交互，类似文本条件化方式；**鼠标输入**（连续信号）经 MLP 和 temporal self-attention 处理后与特征拼接。分组操作（滑动窗口 w=3）解决了帧率与动作粒度不匹配的问题，并捕捉动作的延迟效果。

动作控制模块（Action Control Module）

将动作控制集成到基于 transformer 的 latent video diffusion 模型中：

时序对齐（Temporal Alignment）：采用滑动窗口（大小 w=3）对动作进行分组，处理视频帧与动作输入之间的粒度不匹配，同时捕捉动作效果的延迟性。
鼠标控制：连续运动信号经 MLP 处理后与特征拼接，再通过 temporal self-attention 建模时序依赖。消融实验显示 concatenation 优于 cross-attention（Cam: 0.0685 vs. 更高误差）。
键盘控制：离散输入通过 cross-attention 与视频特征交互（类似文本条件化），消融实验显示 cross-attention 优于 concatenation（Cam: 0.0439 vs. 更高误差）。

自回归长视频生成（Autoregressive Long-Video Generation）

标准扩散模型在长序列生成上存在局限。GameFactory 采用变噪声水平策略：靠后帧携带更多噪声，靠前帧噪声较少作为条件帧。在训练时，仅对预测帧计算损失（不含条件帧），避免梯度泄漏。在推理时，系统迭代选取最近的 k+1 帧作为条件，生成 N−k 个新帧，从而支持无限长度的交互视频生成。

Style-Action 解耦策略（四阶段训练）

**Figure 5**（论文原图）：四阶段训练流水线。Phase #0：在开放域数据上预训练视频扩散模型；Phase #1：在游戏视频上进行 LoRA fine-tuning，学习游戏风格；Phase #2：冻结预训练权重和 LoRA 参数，仅训练动作控制模块；Phase #3：推理时移除 LoRA 权重，保留动作控制同时消除游戏风格偏差，实现开放域场景泛化。

关键洞察：若在 Phase #2 同时学习风格和动作控制，动作控制能力将与特定游戏风格深度绑定，无法泛化。通过先用 LoRA 隔离风格学习（Phase #1），再单独训练动作控制（Phase #2），最后推理时丢弃 LoRA（Phase #3），动作控制模块得以保留开放域生成先验，从而实现跨场景泛化。

GF-Minecraft 数据集

为解决人类行为偏差问题，作者构建了 GF-Minecraft 数据集：70 小时的 Minecraft 游戏录像，采用无偏采样策略收集动作（前进/后退/左/右/跳跃等各键出现频率均衡，约 13.56%），涵盖多样化环境（森林、沙漠、雪地等），并附有文本描述。

03 实验 Experiments

实验在 GF-Minecraft 测试集上评估动作可控性（Cam 相机姿态误差↓、Flow 光流误差↓）和生成质量（FID↓、FVD↓），并在开放域视频上评估场景泛化能力。

动作控制机制消融（Table 2）

控制方式	Cam ↓	Flow ↓
键盘 cross-attention（最优）	0.0439	7.79
鼠标 concatenation（最优）	0.0685	18.64

消融实验表明：离散键盘输入适合用 cross-attention 建模（类似文本条件化），而连续鼠标信号适合用 concatenation 方式注入特征。鼠标运动对视觉的影响强于键盘输入。

场景泛化对比（Table 3）

方法	Cam ↓	Flow ↓	FID ↓	FVD ↓
One-phase training（基线）	0.1134	76.02	167.79	1323.58
Multi-phase training（本文）	0.0997	54.13	121.18	1256.94

多阶段训练在所有指标上均显著优于单阶段基线，验证了 style-action 解耦策略的有效性。

数据集对比：GF-Minecraft vs. VPT（Table 4）

训练数据	Cam ↓	Flow ↓	FID ↓
VPT（人类行为偏差）	0.1324	107.67	156.69
GF-Minecraft（无偏采样）	0.0839	43.48	125.85

VPT 数据集中前进键（W）出现频率为 50.11%，后退键仅 0.32%；GF-Minecraft 中各键频率均衡（约 13.56%）。使用 VPT 训练的模型无法执行跳跃、后退等罕见动作，而 GF-Minecraft 训练的模型能成功完成这些动作。

长视频生成消融（Table 6）

训练策略	Cam ↓	Flow ↓	FID ↓
全帧计算损失	0.1547	—	—
仅预测帧计算损失（本文）	0.0924	85.45	136.95

定性结果：键盘动作控制效果对比 — **Figure 6**（论文原图）：定性结果展示。黄色按钮指示当前按下的键盘键位，验证了模型对离散动作输入的精准跟踪能力。与基线方法相比，GameFactory 生成的视频能更准确地响应键盘操作并保持时序一致性。

拓展实验：跨游戏迁移

GameFactory 不仅限于 Minecraft 风格。实验展示了将学到的动作控制能力迁移至赛车游戏场景的能力，验证了该框架的跨游戏类型泛化潜力。此外，论文还展示了碰撞检测行为（在 Minecraft 中遇到墙壁时停止前进）的自动涌现，以及超过 100 帧的长序列生成效果。

04 局限性 Limitations

Note: 以下局限性均为论文作者明确指出（stated），代表当前 GameFactory 框架尚未解决的开放性挑战。

关卡设计与玩法机制（Level Design & Gameplay Mechanics）

GameFactory 目前缺乏生成多样化关卡结构与游戏玩法机制的能力。论文明确指出 "design of diverse levels and gameplay" 是重要的未来方向，现有框架更侧重于视觉连续性而非结构化游戏逻辑。

玩家反馈系统（Player Feedback Systems）

当前框架不支持完整的玩家交互反馈循环，如血量、得分、碰撞奖励等游戏状态反馈机制。论文将 "player feedback systems" 列为未来工作。

游戏内物体操纵（In-Game Object Manipulation）

GameFactory 目前无法精细地操控游戏世界中的具体物体（如拾取道具、建造方块等），仅能控制摄像机视角和角色运动方向。

长上下文记忆与实时生成（Long-Context Memory & Real-Time Generation）

自回归生成框架虽支持无限长度视频，但仍面临长上下文记忆衰减（超长序列中早期信息丢失）和实时生成速度两大挑战。论文将 "long-context memory" 和 "real-time game generation" 均列为尚待解决的问题。