生成模型 · Generative Models · arXiv 2024

The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control

首个实时可交互、无限长高保真世界生成器
Ruili Feng, Han Zhang, Zhantao Yang, Jie Xiao, Zhilei Shu, Zhiheng Liu, Andy Zheng, Yukun Huang, Yu Liu, Hongyang Zhang

The Matrix 是一个基础世界模拟器,能够以实时、响应式控制生成连续的 720p 高保真真实场景视频流,同时支持第一人称与第三人称视角。系统仅使用有限的 AAA 游戏数据(Forza Horizon 5、Cyberpunk 2077)与大规模真实世界视频进行训练,即可在多种地形中以 8–16 FPS 的速度连续生成,并对未见场景具备 zero-shot 泛化能力。

arXiv 2412.03568 Video DiT · 2.7B 参数 8–16 FPS 实时渲染 📄 arXiv:2412.03568
world model video generation real-time control infinite-horizon 世界模型 diffusion transformer consistency model 游戏数据

01 动机

现有世界模型面临三个核心瓶颈:(1)仅聚焦于低保真非 AAA 游戏;(2)生成长度受限(通常不超过约一分钟);(3)无法实现实时渲染。这些问题使世界模型难以作为真正可交互的游戏引擎或仿真平台。

"The first scalable, high-fidelity 1280×720 pixel world model in real time" — combining AAA game realism, infinite-length generation, and frame-level control in a single system.
teaser — The Matrix 生成的多场景画面
The Matrix 在 Forza Horizon 5、Cyberpunk 2077 及真实世界场景中的生成效果展示,分别对应驾驶、步行与机器人操控三种控制模式。
720p生成分辨率 (1280×720)
8–16 FPS实时渲染速度
2.7B模型参数量
理论生成长度(无限时域)
overview — 系统与基线对比
与现有方法的对比:The Matrix 是唯一同时实现无限视频长度、720p 分辨率、帧级实时控制(8–16 FPS)及控制泛化能力的世界模型,而 Genie(1 FPS、无泛化)、GameNGen(4秒上限)与 GameGen-X(仅视频级控制)均在一个或多个维度存在明显不足。

02 方法

The Matrix 由三个核心模块构成:Interactive Module(将键盘输入转化为语言描述后注入扩散过程)、Shift-Window Denoising Process Model(Swin-DPM)(滑动窗口无限长生成)以及 Stream Consistency Model(SCM)(蒸馏加速实现实时推理)。骨干网络为 Video DiT,共 32 个注意力块,基础参数量 2.3B,加上 Interactive Module 后总计 2.7B。

architecture — 四阶段训练流程
四阶段训练流程:Stage 1 在无标注 Source 数据上进行 warm-up(20k 步,LoRA rank 128);Stage 2 训练 Interactive Module(20k 步,冻结 DiT);Stage 3 微调 Swin-DPM(60k 步,全参数);Stage 4 蒸馏 SCM(10k 步,以 Swin-DPM 为教师模型)。所有阶段:batch size 32,学习率 1×10⁻⁵,bfloat16 精度。
modules — Interactive Module 与 Swin-DPM 示意图
(a)Interactive Module:将键盘输入翻译为自然语言描述(如 "The car is driving forward"),经 T5 encoder 编码后通过 causal cross-attention 层(每两个 DiT block 后插入一层,causal relation window ω=4)注入生成过程。(b)Swin-DPM:滑动时域窗口去噪,窗口大小 w=T;每完成 k 步去噪后,最左侧 token 出队并缓存解码,下一窗口通过重新追加 noise level 为 0 的缓存 token 维持时序连续性。

训练数据:GameData 平台

自主构建的游戏数据采集系统,利用 Cheat Engine、Reshade 插件和 OBS 录制,从 CPU 内存状态中同步捕获游戏视频帧与控制信号:

  • Forza Horizon 5:约 1.2M 视频-控制对
  • Cyberpunk 2077:约 1M 视频-控制对
  • 750k 标注样本 + 1.2M 无标注样本(6 秒片段,60 FPS)
  • DROID 机器人数据集:564 个场景中筛选出 50k 条 6 秒片段(含 7-DOF 关节角度标签)

Forza 数据过滤:平衡控制信号、碰撞检测、卡顿角色去除、运动-控制不匹配检测、伪影去除,共五项策略。

Stream Consistency Model(SCM)

SCM 将 Swin-DPM 蒸馏为 4 步一致性模型,推理速度提升 10–20×,最终实现 8–16 FPS 的实时渲染。

代价是视觉质量有所下降(FVD 从 1211.30 上升到 1936.79),但控制精度(Move-LPIPS)从 0.125 进一步提升至 0.109,体现了速度-质量之间的权衡关系。

03 实验

实验在三个场景下评估:Forza Horizon 5(赛车驾驶)、Cyberpunk 2077(角色步行)以及 DROID 机器人操控。评估指标包含视觉质量(FID、FVD、CLIP Score,在 2048 秒随机生成视频上计算)与控制精度(Move-PSNR、Move-LPIPS,在 2048 秒固定测试集上计算)。

帧级控制精度(4.1 节)

场景 Move-LPIPS ↓ Move-PSNR ↑
Cyberpunk 2077 0.129 28.24
Forza Horizon 5 0.125 28.98
DROID 机器人 0.180 27.90

各模块消融(速度-质量权衡,Table 2)

组件 推理速度 FVD ↓ Move-LPIPS ↓
+ Interactive Module(基线) 55 sec / 48 frames 1211.30 0.125
+ Swin-DPM 0.8 FPS 1651.50 0.113
+ SCM(完整系统) 8–16 FPS 1936.79 0.109

注:Swin-DPM 的引入使 FVD 上升(视觉质量有所牺牲),但保持了强控制精度;SCM 进一步提升推理速度约 10–20×,并进一步降低 Move-LPIPS 至 0.109。

infinite_gen — 无限长视频生成示例
无限时域生成示例:一分钟连续生成视频横跨沙漠、河流、草地、雪地并伴随昼夜切换;另有 2.5 分钟视频通过 DiT 文字提示跨越多个多样化场景。补充材料中包含长达半小时的连续生成示例。
generalization — 对未见场景与对象的泛化
Zero-shot 泛化能力:(左)汽车在从未出现于训练数据的室内办公室场景中行驶;(右)通过文字提示将运动控制迁移到人类角色。关闭 Interactive Module 后,系统可作为无条件长视频生成器使用。

04 局限性

说明:论文中未设专门的 Limitations 节。以下内容部分为作者在实验分析中直接指出(标注"论文指出"),部分为从设计与实验结果中推断(标注"推断")。
速度与视觉质量之间存在明显权衡(论文指出)

引入 Swin-DPM 后 FVD 从 1211.30 上升至 1651.50,进一步加入 SCM 后升至 1936.79。实现实时推理(8–16 FPS)是以视觉保真度为代价的,现阶段难以同时达到最高画质与最快速度。

泛化能力仅作定性验证(推断)

对未见场景(如室内办公室)和未见对象(如人类角色)的泛化结果仅以定性图示呈现,未提供系统性的量化评估,泛化边界尚不明确。

训练数据依赖特定游戏,评估领域有限(推断)

训练数据主要来自 Forza Horizon 5 与 Cyberpunk 2077 两款 AAA 游戏,以及 DROID 机器人数据集;评估域相对集中,系统在其他类型游戏或真实世界场景中的表现尚未系统验证。

控制粒度受限于键盘指令抽象(推断)

Interactive Module 将键盘输入翻译为自然语言描述(如 "The car is driving forward"),控制信号经过一层语言抽象,精细的运动轨迹或连续动作空间的控制能力尚未得到充分探索。