ICCV 2025 Highlight · 生成模型 · Generative Models

GameFactory: Creating New Games with Generative Interactive Videos

跨场景可泛化的动作控制游戏视频生成框架
Jiwen Yu · Yiran Qin · Xintao Wang · Pengfei Wan · Di Zhang · Xihui Liu  |  University of Hong Kong, Kuaishou Technology

GameFactory 提出了一个将预训练视频扩散模型与小规模游戏数据相结合的框架,通过 style-action 解耦与多阶段训练策略,使动作控制能力能够泛化到开放域场景,从而实现跨场景的全新游戏内容生成。

ICCV 2025 Highlight 70 小时 GF-Minecraft 数据集 无限长度自回归生成 📄 arXiv:2501.08325 Project Page
游戏视频生成 video diffusion action control scene generalization style-action decoupling domain adapter autoregressive generation GF-Minecraft

01 动机 Motivation

游戏开发是一项极度耗费人力的过程,生成式视频模型具备自主创作游戏内容的潜力。然而现有方法普遍面临两大核心挑战:动作可控性(精准响应键盘与鼠标输入)和场景泛化性(不局限于固定的游戏风格与场景)。

"Generative videos have the potential to revolutionize game development by autonomously creating new content… GameFactory tackles the critical challenge of scene-generalizable action control, which most existing methods fail to address."
GameFactory teaser:在多种开放域场景中进行动作控制游戏视频生成
Figure 1(论文原图):GameFactory 在多样化开放域场景(森林、海洋、城市等)中生成动作可控的游戏视频。黄色按钮表示已按下的键盘键位,箭头表示鼠标移动方向。该框架仅在小规模 Minecraft 数据上学习动作控制,却能将控制能力迁移至全新开放域场景,生成全新游戏体验。
70hGF-Minecraft 数据集时长
FID 121.18多阶段训练场景泛化 FID↓
Cam 0.0997相机姿态误差↓(场景泛化)
自回归无限长度视频生成

现有方法的不足

以往的游戏视频生成工作(如 GameNGen、DIAMOND、Genie 等)大多在固定游戏环境下训练,动作控制能力与特定游戏风格深度耦合,无法泛化到新场景。此外,人类采集数据(如 VPT 数据集)存在严重的行为偏差:前进键(W)出现频率高达 50.11%,而后退键仅占 0.32%,导致模型难以学到均匀分布的动作控制能力。

GameFactory 整体方案示意图
Figure 2(论文原图):GameFactory 的整体方案示意。蓝色上方展示预训练模型在开放域的强大生成能力;绿色下方展示从少量游戏数据中学习动作控制模块,并"插件式"集成到预训练模型中,实现新游戏创建。

02 方法 Method

GameFactory 的核心创新在于三个相互配合的模块:动作控制模块(精准处理键盘与鼠标输入)、自回归长视频生成(支持无限长度交互视频)、以及style-action 解耦策略(通过多阶段训练使动作控制脱离游戏风格绑定)。

动作控制模块架构图
Figure 3(论文原图):动作控制模块的详细架构。键盘输入(离散信号)通过 cross-attention 与视频特征交互,类似文本条件化方式;鼠标输入(连续信号)经 MLP 和 temporal self-attention 处理后与特征拼接。分组操作(滑动窗口 w=3)解决了帧率与动作粒度不匹配的问题,并捕捉动作的延迟效果。

动作控制模块(Action Control Module)

将动作控制集成到基于 transformer 的 latent video diffusion 模型中:

自回归长视频生成(Autoregressive Long-Video Generation)

标准扩散模型在长序列生成上存在局限。GameFactory 采用变噪声水平策略:靠后帧携带更多噪声,靠前帧噪声较少作为条件帧。在训练时,仅对预测帧计算损失(不含条件帧),避免梯度泄漏。在推理时,系统迭代选取最近的 k+1 帧作为条件,生成 N−k 个新帧,从而支持无限长度的交互视频生成。

Style-Action 解耦策略(四阶段训练)

四阶段训练流水线
Figure 5(论文原图):四阶段训练流水线。Phase #0:在开放域数据上预训练视频扩散模型;Phase #1:在游戏视频上进行 LoRA fine-tuning,学习游戏风格;Phase #2:冻结预训练权重和 LoRA 参数,仅训练动作控制模块;Phase #3:推理时移除 LoRA 权重,保留动作控制同时消除游戏风格偏差,实现开放域场景泛化。

关键洞察:若在 Phase #2 同时学习风格和动作控制,动作控制能力将与特定游戏风格深度绑定,无法泛化。通过先用 LoRA 隔离风格学习(Phase #1),再单独训练动作控制(Phase #2),最后推理时丢弃 LoRA(Phase #3),动作控制模块得以保留开放域生成先验,从而实现跨场景泛化。

GF-Minecraft 数据集

为解决人类行为偏差问题,作者构建了 GF-Minecraft 数据集:70 小时的 Minecraft 游戏录像,采用无偏采样策略收集动作(前进/后退/左/右/跳跃等各键出现频率均衡,约 13.56%),涵盖多样化环境(森林、沙漠、雪地等),并附有文本描述。

03 实验 Experiments

实验在 GF-Minecraft 测试集上评估动作可控性(Cam 相机姿态误差↓、Flow 光流误差↓)和生成质量(FID↓、FVD↓),并在开放域视频上评估场景泛化能力。

动作控制机制消融(Table 2)

控制方式Cam ↓Flow ↓
键盘 cross-attention(最优)0.04397.79
鼠标 concatenation(最优)0.068518.64

消融实验表明:离散键盘输入适合用 cross-attention 建模(类似文本条件化),而连续鼠标信号适合用 concatenation 方式注入特征。鼠标运动对视觉的影响强于键盘输入。

场景泛化对比(Table 3)

方法Cam ↓Flow ↓FID ↓FVD ↓
One-phase training(基线)0.113476.02167.791323.58
Multi-phase training(本文)0.099754.13121.181256.94

多阶段训练在所有指标上均显著优于单阶段基线,验证了 style-action 解耦策略的有效性。

数据集对比:GF-Minecraft vs. VPT(Table 4)

训练数据Cam ↓Flow ↓FID ↓
VPT(人类行为偏差)0.1324107.67156.69
GF-Minecraft(无偏采样)0.083943.48125.85

VPT 数据集中前进键(W)出现频率为 50.11%,后退键仅 0.32%;GF-Minecraft 中各键频率均衡(约 13.56%)。使用 VPT 训练的模型无法执行跳跃、后退等罕见动作,而 GF-Minecraft 训练的模型能成功完成这些动作。

长视频生成消融(Table 6)

训练策略Cam ↓Flow ↓FID ↓
全帧计算损失0.1547
仅预测帧计算损失(本文)0.092485.45136.95
定性结果:键盘动作控制效果对比
Figure 6(论文原图):定性结果展示。黄色按钮指示当前按下的键盘键位,验证了模型对离散动作输入的精准跟踪能力。与基线方法相比,GameFactory 生成的视频能更准确地响应键盘操作并保持时序一致性。

拓展实验:跨游戏迁移

GameFactory 不仅限于 Minecraft 风格。实验展示了将学到的动作控制能力迁移至赛车游戏场景的能力,验证了该框架的跨游戏类型泛化潜力。此外,论文还展示了碰撞检测行为(在 Minecraft 中遇到墙壁时停止前进)的自动涌现,以及超过 100 帧的长序列生成效果。

04 局限性 Limitations

Note: 以下局限性均为论文作者明确指出(stated),代表当前 GameFactory 框架尚未解决的开放性挑战。
关卡设计与玩法机制(Level Design & Gameplay Mechanics)

GameFactory 目前缺乏生成多样化关卡结构与游戏玩法机制的能力。论文明确指出 "design of diverse levels and gameplay" 是重要的未来方向,现有框架更侧重于视觉连续性而非结构化游戏逻辑。

玩家反馈系统(Player Feedback Systems)

当前框架不支持完整的玩家交互反馈循环,如血量、得分、碰撞奖励等游戏状态反馈机制。论文将 "player feedback systems" 列为未来工作。

游戏内物体操纵(In-Game Object Manipulation)

GameFactory 目前无法精细地操控游戏世界中的具体物体(如拾取道具、建造方块等),仅能控制摄像机视角和角色运动方向。

长上下文记忆与实时生成(Long-Context Memory & Real-Time Generation)

自回归生成框架虽支持无限长度视频,但仍面临长上下文记忆衰减(超长序列中早期信息丢失)和实时生成速度两大挑战。论文将 "long-context memory" 和 "real-time game generation" 均列为尚待解决的问题。