GameGen-X: Interactive Open-world Game Video Generation

01 动机

开放世界游戏开发耗费大量人力与时间：即便是早期原型，也需要小型团队数月的密集工作。现有神经网络方法（如 GameGAN、Genie、GameNGen）主要针对 2D 简单游戏（Pac-Man、DOOM），在复杂的次世代开放世界游戏内容生成上面临本质挑战——不仅要生成动态环境与多样角色，还要支持用户实时交互控制。

"Can a diffusion model generate and control high-quality, complex open-world video game content?"

GameGen-X teaser — 生成与交互控制示例 — **图 1 · Teaser：**GameGen-X 可以生成全新开放世界游戏视频片段，并支持玩家通过键盘和文本指令进行实时交互控制，模拟游戏游玩体验（点击图片可查看交互演示视频）。

1M+OGameData 视频片段总量

150+覆盖的次世代游戏数量

720p生成分辨率（102 帧）

首个开放世界游戏视频生成与控制模型

02 方法

GameGen-X 采用两阶段训练策略：第一阶段在 OGameData-GEN 上预训练基础模型，学习游戏视频的文本-视频生成与视频续写；第二阶段引入 InstructNet，在基础模型参数冻结的前提下，通过 OGameData-INS 进行指令微调，赋予模型多模态交互控制能力。

OGameData：大规模游戏领域数据集

OGameData 数据集构建流程 — **图 2 · OGameData 构建流程（human-in-the-loop）：**从网络和游戏引擎采集视频，经 TransNetV2 场景切分、CLIP-AVA 美观评分、UniMatch 运动过滤、VideoCLIP 内容相似度筛选、CoTrackerV2 摄像机运动标注，最终由 GPT-4o 生成结构化标注。OGameData-GEN 提供详细场景描述，OGameData-INS 提供面向交互控制的差异化指令描述。

OGameData 是首个专为开放世界游戏视频生成与控制构建的大规模数据集，包含 100 万高分辨率（720p–4K）视频-文本对，来自 150+ 次世代游戏，总时长约 4000 小时，标注密度达 607 words/min——是对比数据集 MiraData（264 words/min）的 2.3 倍。数据集由两个子集组成：OGameData-GEN（用于生成预训练）和 OGameData-INS（用于指令微调与交互控制）。

两阶段训练框架

基础模型：Masked Spatial-Temporal Diffusion Transformer (MSDiT)

基础模型使用 3D Spatio-Temporal VAE 将视频片段压缩至潜在表示，再由 MSDiT 进行去噪生成。MSDiT 叠加 Spatial Attention（帧内关系）、Temporal Attention（帧间相干性）和 Cross-Attention（与 T5 文本嵌入对齐）三种机制。为统一文本到视频生成与视频续写，引入 掩码机制（Masking Mechanism）：对文本到视频任务，所有帧均加噪（x=0）；对视频续写任务，前 x 帧作为上下文保持不变，仅对后续帧去噪。训练还结合了 bucket training、classifier-free guidance 和 rectified flow。

InstructNet：多模态交互控制

GameGen-X 架构图 — InstructNet — **图 4 · GameGen-X 架构：**InstructNet 在冻结的基础模型旁并联运行，包含 N 个 InstructNet Block，每个 Block 由 Operation Fusion Expert Layer（处理键盘输入，通过 feature scaling/shifting 调制）和 Instruction Fusion Expert Layer（处理结构化文本，通过 cross-attention 融合）组成。InstructNet 输出注入基础模型的潜在表示，引导视频内容响应用户输入。

InstructNet 通过多模态专家（Multi-modal Experts）处理三类控制信号：

键盘输入（Keyboard Bindings）：通过 Operation Fusion Expert 以 feature scale & shift 方式调制潜在表示，主要控制角色运动方向，计算开销轻量。
结构化文本指令（Instruction Text）：通过 Instruction Fusion Expert 以 cross-attention 方式融合，控制环境变化、光照调整等复杂场景元素。
视频 Prompt（Canny 边缘、运动向量、姿态序列等）：经 3D-VAE 编码后加到潜在特征上，提供辅助引导，支持复杂动作生成或视频编辑（推理时可选）。

交互控制通过自回归生成实现：基于历史帧 v₁:ₓ，在控制信号 c 的条件下自回归预测后续帧 vₓ₊₁:N，形成类游戏的连续交互体验。

03 实验

在自建游戏视频测试集上与 Mira、OpenSora-Plan 1.2、CogVideoX-5B、OpenSora 1.2 等开源模型对比，评估生成质量（FID、FVD、TVA、UP、MS、DD、SC、IQ）和交互控制能力（SR-C：角色动作成功率；SR-E：环境事件成功率）。

生成性能对比（Table 2）

模型	分辨率	帧数	FID↓	FVD↓	TVA↑	UP↑	MS↑	SC↑
Mira	480p	60	360.9	2254.2	0.27	0.25	0.98	0.94
OpenSora-Plan 1.2	720p	102	407.0	1940.9	0.38	0.43	0.99	0.92
CogVideoX-5B	480p	49	316.9	1310.2	0.49	0.37	0.99	0.92
OpenSora 1.2	720p	102	318.1	1016.3	0.50	0.37	0.98	0.87
GameGen-X（Ours）	720p	102	252.1	759.8	0.87	0.82	0.99	0.94

交互控制性能对比（Table 3）

模型	SR-C↑	SR-E↑	UP↑	MS↑	SC↑
OpenSora-Plan 1.2	26.6%	31.7%	0.46	0.99	0.90
CogVideoX-5B	23.0%	30.3%	0.45	0.98	0.85
OpenSora 1.2	21.6%	14.2%	0.17	0.99	0.84
GameGen-X（Ours）	63.0%	56.8%	0.71	0.99	0.88

GameGen-X 在角色动作成功率（SR-C：63.0% vs. 次优 26.6%）和环境事件成功率（SR-E：56.8% vs. 次优 31.7%）上大幅领先，同时 FID（252.1）和 FVD（759.8）显著优于所有对比模型。IQ 指标上稍弱，论文指出这是因为 IQ 倾向于偏好在自然场景数据集上训练的模型。

定性结果

GameGen-X 生成展示 — 角色、环境、动作、事件 — **图 5 · 生成展示：**模型可生成多样化游戏内容——角色（刺客、法师）、环境（樱花森林、热带雨林）、动作（飞行、驾马车）和天气事件（暴风雪、大雨）。

与开源及商业模型的对比 — **图 7–8 · 对比：**（上）与 OpenSora、OpenSora-Plan、CogVideoX 的开放域生成对比；（下）与 KLing 1.5、Luma、TongYi、Pika、RunWay 等商业产品的交互控制对比。在给定提示"从山洞深处走出并靠近水边"的场景中，仅 Pika、KLing 1.5 和 GameGen-X 正确跟随文本描述，GameGen-X 进一步保持了游戏式的摄像机逻辑与场景一致性。

消融实验（Tables 4 & 5）

数据策略消融（Table 4）：使用 GameGen-X 完整数据策略（FID 252.1 / FVD 759.8 / TVA 0.87 / UP 0.82）显著优于使用 MiraData（303.7 / 1423.6 / 0.70 / 0.48）、短标注（303.8 / 1167.7 / 0.53 / 0.49）或渐进训练（294.2 / 1169.8 / 0.68 / 0.53）的变体。

InstructNet 组件消融（Table 5）：移除 InstructNet 使 SR-C 从 45.6% 降至 12.3%、SR-E 从 45.0% 降至 17.5%，用户偏好 UP 从 0.50 降至 0.16，证明 InstructNet 是实现用户偏好交互控制的核心组件。移除 Instruct Captions 或 Decomposition 也显著影响控制指标。

04 局限性

Note：以下局限性均为作者在论文 Appendix E 中明确陈述（stated）。

实时生成与交互（Real-Time Generation）

扩散模型的采样过程和空间-时间自注意力机制计算代价高昂，目前无法实现游戏所需的实时交互响应。

自回归生成中的一致性漂移（Consistency in Auto-Regressive Generation）

自回归生成中错误会累积，导致长序列中的角色外观和场景连贯性下降，重新进入已生成场景时尤为明显。

复杂动作生成困难（Complex Action Generation）

模型难以独立生成快速、复杂的动作（如战斗序列），需要借助视频 prompt（Canny 边缘、运动向量等）辅助引导，限制了模型的自主生成能力。

高分辨率生成受限（High-Resolution Generation）

受内存与计算约束，GameGen-X 尚不支持超高分辨率内容生成（如 2K/4K），限制了其在 AAA 级次世代游戏开发中的实际应用。

长期时序一致性不足（Long-Term Consistency）

模型短期记忆窗口仅为 1–108 帧，当玩家返回已生成场景时，场景可能发生显著改变，无法维持长时间的环境连贯性。

物理真实性与多角色生成（Physics Realism & Multi-Character）

生成内容在光照反射、角色-环境交互的物理准确性方面仍有不足；当前训练数据分布也限制了多角色协同交互场景的生成质量。

与现有游戏引擎不兼容（Engine Integration）

模型输出的视频目前无法直接兼容现有游戏引擎，需要额外的转换步骤（如视频转 3D 模型）才能融入游戏开发工作流。