生成模型 · Generative Models  |  arXiv 2024

GameGen-X

Interactive Open-world Game Video Generation
Haoxuan Che · Xuanhua He · Quande Liu · Cheng Jin · Hao Chen  |  HKUST / USTC / CUHK

GameGen-X 是首个专为开放世界游戏视频生成与交互控制设计的 Diffusion Transformer 模型。它通过两阶段训练——基础模型预训练与 InstructNet 指令微调——既能从文本描述中生成新颖游戏场景,又能响应键盘信号和结构化文本指令实时调整游戏内容,首次将角色交互控制与场景内容控制统一到一个视频生成框架中。

720p · 102 帧 OGameData: 100 万视频片段 150+ 次世代游戏 arXiv:2411.00769 Project Page
game video generation diffusion transformer open-world game interactive control InstructNet OGameData 游戏视频生成 指令微调

01 动机

开放世界游戏开发耗费大量人力与时间:即便是早期原型,也需要小型团队数月的密集工作。现有神经网络方法(如 GameGAN、Genie、GameNGen)主要针对 2D 简单游戏(Pac-Man、DOOM),在复杂的次世代开放世界游戏内容生成上面临本质挑战——不仅要生成动态环境与多样角色,还要支持用户实时交互控制。

"Can a diffusion model generate and control high-quality, complex open-world video game content?"
GameGen-X teaser — 生成与交互控制示例
图 1 · Teaser:GameGen-X 可以生成全新开放世界游戏视频片段,并支持玩家通过键盘和文本指令进行实时交互控制,模拟游戏游玩体验(点击图片可查看交互演示视频)。
1M+OGameData 视频片段总量
150+覆盖的次世代游戏数量
720p生成分辨率(102 帧)
首个开放世界游戏视频生成与控制模型

02 方法

GameGen-X 采用两阶段训练策略:第一阶段在 OGameData-GEN 上预训练基础模型,学习游戏视频的文本-视频生成与视频续写;第二阶段引入 InstructNet,在基础模型参数冻结的前提下,通过 OGameData-INS 进行指令微调,赋予模型多模态交互控制能力。

OGameData:大规模游戏领域数据集

OGameData 数据集构建流程
图 2 · OGameData 构建流程(human-in-the-loop):从网络和游戏引擎采集视频,经 TransNetV2 场景切分、CLIP-AVA 美观评分、UniMatch 运动过滤、VideoCLIP 内容相似度筛选、CoTrackerV2 摄像机运动标注,最终由 GPT-4o 生成结构化标注。OGameData-GEN 提供详细场景描述,OGameData-INS 提供面向交互控制的差异化指令描述。

OGameData 是首个专为开放世界游戏视频生成与控制构建的大规模数据集,包含 100 万高分辨率(720p–4K)视频-文本对,来自 150+ 次世代游戏,总时长约 4000 小时,标注密度达 607 words/min——是对比数据集 MiraData(264 words/min)的 2.3 倍。数据集由两个子集组成:OGameData-GEN(用于生成预训练)和 OGameData-INS(用于指令微调与交互控制)。

两阶段训练框架

GameGen-X 两阶段训练框架
图 3 · 两阶段训练框架:第一阶段(上)在 OGameData-GEN 上训练基础模型,支持文本到视频生成与视频续写;第二阶段(下)冻结基础模型,仅训练 InstructNet,在 OGameData-INS 上学习多模态交互控制(键盘输入 + 结构化文本指令 + 视频 prompt)。

基础模型:Masked Spatial-Temporal Diffusion Transformer (MSDiT)

基础模型使用 3D Spatio-Temporal VAE 将视频片段压缩至潜在表示,再由 MSDiT 进行去噪生成。MSDiT 叠加 Spatial Attention(帧内关系)、Temporal Attention(帧间相干性)和 Cross-Attention(与 T5 文本嵌入对齐)三种机制。为统一文本到视频生成与视频续写,引入 掩码机制(Masking Mechanism):对文本到视频任务,所有帧均加噪(x=0);对视频续写任务,前 x 帧作为上下文保持不变,仅对后续帧去噪。训练还结合了 bucket training、classifier-free guidance 和 rectified flow。

InstructNet:多模态交互控制

GameGen-X 架构图 — InstructNet
图 4 · GameGen-X 架构:InstructNet 在冻结的基础模型旁并联运行,包含 N 个 InstructNet Block,每个 Block 由 Operation Fusion Expert Layer(处理键盘输入,通过 feature scaling/shifting 调制)和 Instruction Fusion Expert Layer(处理结构化文本,通过 cross-attention 融合)组成。InstructNet 输出注入基础模型的潜在表示,引导视频内容响应用户输入。

InstructNet 通过多模态专家(Multi-modal Experts)处理三类控制信号:

交互控制通过自回归生成实现:基于历史帧 v₁:ₓ,在控制信号 c 的条件下自回归预测后续帧 vₓ₊₁:N,形成类游戏的连续交互体验。

03 实验

在自建游戏视频测试集上与 Mira、OpenSora-Plan 1.2、CogVideoX-5B、OpenSora 1.2 等开源模型对比,评估生成质量(FID、FVD、TVA、UP、MS、DD、SC、IQ)和交互控制能力(SR-C:角色动作成功率;SR-E:环境事件成功率)。

生成性能对比(Table 2)

模型分辨率帧数FID↓FVD↓TVA↑UP↑MS↑SC↑
Mira480p60360.92254.20.270.250.980.94
OpenSora-Plan 1.2720p102407.01940.90.380.430.990.92
CogVideoX-5B480p49316.91310.20.490.370.990.92
OpenSora 1.2720p102318.11016.30.500.370.980.87
GameGen-X(Ours)720p102252.1759.80.870.820.990.94

交互控制性能对比(Table 3)

模型SR-C↑SR-E↑UP↑MS↑SC↑
OpenSora-Plan 1.226.6%31.7%0.460.990.90
CogVideoX-5B23.0%30.3%0.450.980.85
OpenSora 1.221.6%14.2%0.170.990.84
GameGen-X(Ours)63.0%56.8%0.710.990.88

GameGen-X 在角色动作成功率(SR-C:63.0% vs. 次优 26.6%)和环境事件成功率(SR-E:56.8% vs. 次优 31.7%)上大幅领先,同时 FID(252.1)和 FVD(759.8)显著优于所有对比模型。IQ 指标上稍弱,论文指出这是因为 IQ 倾向于偏好在自然场景数据集上训练的模型。

定性结果

GameGen-X 生成展示 — 角色、环境、动作、事件
图 5 · 生成展示:模型可生成多样化游戏内容——角色(刺客、法师)、环境(樱花森林、热带雨林)、动作(飞行、驾马车)和天气事件(暴风雪、大雨)。
与开源及商业模型的对比
图 7–8 · 对比:(上)与 OpenSora、OpenSora-Plan、CogVideoX 的开放域生成对比;(下)与 KLing 1.5、Luma、TongYi、Pika、RunWay 等商业产品的交互控制对比。在给定提示"从山洞深处走出并靠近水边"的场景中,仅 Pika、KLing 1.5 和 GameGen-X 正确跟随文本描述,GameGen-X 进一步保持了游戏式的摄像机逻辑与场景一致性。

消融实验(Tables 4 & 5)

数据策略消融(Table 4):使用 GameGen-X 完整数据策略(FID 252.1 / FVD 759.8 / TVA 0.87 / UP 0.82)显著优于使用 MiraData(303.7 / 1423.6 / 0.70 / 0.48)、短标注(303.8 / 1167.7 / 0.53 / 0.49)或渐进训练(294.2 / 1169.8 / 0.68 / 0.53)的变体。

InstructNet 组件消融(Table 5):移除 InstructNet 使 SR-C 从 45.6% 降至 12.3%、SR-E 从 45.0% 降至 17.5%,用户偏好 UP 从 0.50 降至 0.16,证明 InstructNet 是实现用户偏好交互控制的核心组件。移除 Instruct Captions 或 Decomposition 也显著影响控制指标。

04 局限性

Note:以下局限性均为作者在论文 Appendix E 中明确陈述(stated)。
实时生成与交互(Real-Time Generation)

扩散模型的采样过程和空间-时间自注意力机制计算代价高昂,目前无法实现游戏所需的实时交互响应。

自回归生成中的一致性漂移(Consistency in Auto-Regressive Generation)

自回归生成中错误会累积,导致长序列中的角色外观和场景连贯性下降,重新进入已生成场景时尤为明显。

复杂动作生成困难(Complex Action Generation)

模型难以独立生成快速、复杂的动作(如战斗序列),需要借助视频 prompt(Canny 边缘、运动向量等)辅助引导,限制了模型的自主生成能力。

高分辨率生成受限(High-Resolution Generation)

受内存与计算约束,GameGen-X 尚不支持超高分辨率内容生成(如 2K/4K),限制了其在 AAA 级次世代游戏开发中的实际应用。

长期时序一致性不足(Long-Term Consistency)

模型短期记忆窗口仅为 1–108 帧,当玩家返回已生成场景时,场景可能发生显著改变,无法维持长时间的环境连贯性。

物理真实性与多角色生成(Physics Realism & Multi-Character)

生成内容在光照反射、角色-环境交互的物理准确性方面仍有不足;当前训练数据分布也限制了多角色协同交互场景的生成质量。

与现有游戏引擎不兼容(Engine Integration)

模型输出的视频目前无法直接兼容现有游戏引擎,需要额外的转换步骤(如视频转 3D 模型)才能融入游戏开发工作流。