生成模型 · Generative Models · arXiv 2025

Matrix-Game: Interactive World Foundation Model

170 亿参数交互式游戏世界基础模型,精确响应键盘与鼠标控制
Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

Matrix-Game 是一个面向可交互游戏世界生成的基础模型,通过两阶段训练——先在 2,700 小时无标注 Minecraft 视频上进行大规模预训练,再用 1,200 小时精标动作数据微调——实现了对角色动作(键盘)和摄像机(鼠标)的精确帧级控制,同时保持高视觉质量与时序一致性。

17B 参数Minecraft 数据集 3,900+ 小时GameWorld Score 评测 📄 arXiv:2506.18701 PDF
world model interactive generation diffusion transformer action controllability autoregressive generation Minecraft GameWorld Score 可交互世界模型 视频生成 3D Causal VAE

01 动机 Motivation

世界模型是智能体感知、模拟和推理环境动态的核心。然而,现有可交互视频生成方法面临三重瓶颈:数据匮乏(精标动作视频采集昂贵)、物理动态难以建模(细粒度时序可控性不足)、以及评测标准缺失(缺乏客观比较的统一基准)。

"Interactive video datasets with rich annotations (e.g., precise actions, camera movement) are scarce and expensive to collect, especially at scale."
Matrix-Game Minecraft desert teaser
Figure 1(a):Matrix-Game 在 Minecraft Desert 场景中的可控生成示例。模型能在沙漠、海滩、森林、山地、冰原、平原、河流、蘑菇岛等 8 种生物群系中精确响应用户输入,同时保持视觉真实感。
17B模型参数量
3,900+训练数据总时长(小时)
0.95键盘动作准确率 Keyboard Accuracy
96.3%人类评测综合胜率 Overall Win Rate

与 Oasis 和 MineWorld 等已有开源世界模型相比,Matrix-Game 在可控性(keyboard / mouse accuracy)和物理一致性(object consistency)上取得显著提升,同时维持高视觉质量与时序流畅度。

02 方法 Method

Matrix-Game 采用 image-to-world 范式:以单帧图像为条件,通过 3D Causal VAE 压缩时空信息,再由 Multi-Modal Diffusion Transformer (MMDiT) 生成动作条件视频,并借助自回归策略实现长时程连续生成。

Matrix-Game architecture overview
Figure 4:Matrix-Game 整体架构——3D Causal VAE(空间 8× / 时序 4× 压缩)将输入帧编码为 latent,MMDiT 在此空间进行去噪生成;动作控制信号(键盘离散指令 + 鼠标连续偏角)作为额外条件注入。

两阶段训练流程

Stage 1 — 无标注视频预训练:在 2,700 小时 720p Minecraft 原始视频上进行大规模预训练,帮助模型习得场景外观、物理规律与时序动态。原始数据经三级分层过滤(视频质量评估 → 菜单/字幕/人脸清除 → 运动模糊过滤),最终保留 870 小时高质量子集。支持变长帧数(17 / 33 / 65 帧)与多种宽高比(16:9 / 4:3 / 21:9)。

Stage 2 — 精标动作微调:在 1,200 小时带精确键盘 + 鼠标标注的视频上进行监督训练,使模型能精确响应帧级动作控制信号。标注数据来源于 MineRL 智能体自主探索(VPT 模型,16Hz 采样)和 Unreal 程序化仿真两条管线,覆盖 14 种生物群系,每类占比 4–7%,保证语义多样性。

动作控制模块

Matrix-Game 支持两类控制信号:

Diffusion transformer block details
Figure 6:Matrix-Game diffusion transformer block 细节。MMDiT 架构将视频 token 与图像 token 在 token 维度拼接,动作控制信号作为独立 condition 注入,键盘经 cross-attention、鼠标经 MLP + temporal self-attention 集成。

自回归长视频生成

为突破单次生成固定帧长的限制,模型采用自回归策略:每个生成片段末尾的 k=5 帧 latent 与下一段 noisy latent 在 channel 维度拼接,并附 binary mask 指示有效运动帧。同时以 0.2 概率向 motion frame 添加 Gaussian noise、以 0.25 概率将其替换为零 latent(classifier-free guidance),从而抑制误差累积并提升长时稳定性。

Data filtering pipeline
Figure 3:Matrix-Game-MC 无标注数据三阶段分层过滤流程——Stage 1 过滤低质量画面,Stage 2 清除游戏菜单、字幕与人脸,Stage 3 过滤运动模糊与不合理摄像机移动,最终保留高质量训练数据。

03 实验 Experiments

作者提出 GameWorld Score——一个覆盖 4 大支柱、8 个维度的统一评测基准,并在该基准上与 Oasis 和 MineWorld 进行全面对比,同时进行人类双盲评测。

GameWorld Score benchmark structure
Figure 7:GameWorld Score 基准结构。四大支柱:Visual Quality(Image Quality + Aesthetic)、Temporal Quality(Temporal Consistency + Motion Smoothness)、Action Controllability(Keyboard Accuracy + Mouse Accuracy)、Physical Rule Understanding(Object Consistency + Scenario Consistency)。

主要定量结果(Table 2)

指标 MetricOasisMineWorldMatrix-Game
Image Quality0.650.690.72
Aesthetic0.480.470.49
Temporal Consistency0.940.950.97
Motion Smoothness0.980.980.98
Keyboard Accuracy0.770.860.95
Mouse Accuracy0.560.640.95
Object Consistency0.560.510.76
Scenario Consistency0.860.920.93

Matrix-Game 在全部 8 个维度均超过 Oasis 和 MineWorld,尤其在可控性(Keyboard Accuracy: 0.95 vs 0.77 / 0.86;Mouse Accuracy: 0.95 vs 0.56 / 0.64)和物理一致性(Object Consistency: 0.76 vs 0.56 / 0.51)方面优势显著。

细粒度键盘动作准确率(Table 3 节选)

动作 ActionOasisMineWorldMatrix-Game
Forward0.850.860.99
Left0.800.870.92
Right0.790.880.96
Jump0.770.820.88
GameWorld Score radar chart
Figure 2:GameWorld Score 雷达图对比。Matrix-Game(蓝色)在全部 8 个维度上均领先 Oasis 和 MineWorld,特别在 Keyboard Accuracy 和 Mouse Accuracy 两个可控性维度提升幅度最大。Aesthetic 维度已 ×2 缩放以便可视化。

人类双盲评测

Human evaluation results
Figure 8:人类双盲评测结果(win rate vs Oasis + MineWorld)。Matrix-Game 在 Overall Quality(96.30%)、Visual Quality(98.23%)、Controllability(93.76%)和 Temporal Consistency(89.56%)四个维度均显著领先。
96.30%Overall Quality 胜率
98.23%Visual Quality 胜率
93.76%Controllability 胜率
89.56%Temporal Consistency 胜率

消融与 Scenario 泛化

模型在 8 种 Minecraft 生物群系(beach、desert、forest、hills、icy、mushroom、plains、river)上进行测试。论文指出:"Our model consistently outperforms existing open-source baselines...across all eight scenarios."。键盘动作 IDM(Inverse Dynamics Model)分类准确率为 90.6%,鼠标运动回归 R² 达 0.97,验证了评测指标的可靠性。

04 局限性 Limitations

Note:以下局限性由作者在论文 Failure Cases 及 Conclusion 节明确陈述,并附有可视化示例(Figure 11)。
边缘场景泛化不足

"The model may occasionally struggle with precise controllability or spatial consistency in rare biomes or edge cases, typically due to insufficient data coverage."——在数据覆盖不足的罕见生物群系或极端场景下,模型偶尔出现可控性下降或空间一致性问题。

物理理解存在盲区

"There is still room to further enhance its understanding of physical dynamics, particularly in interactions such as object collisions or terrain traversal"——对于物体碰撞、穿越特定地形(如树叶)等涉及精细物理交互的场景,模型仍可能出现穿模或物理错误(如角色走过树叶时不符合物理规律)。

动作空间与游戏场景受限

当前鼠标控制范围有限(每帧最大 15° 偏转),键盘动作空间也未覆盖 Minecraft 全部操作。模型目前仅在 Minecraft 场景训练,作者将扩展至 Black Myth: Wukong、赛车模拟器、CS:GO 等复杂游戏作为未来工作。

长时序误差累积

自回归生成策略虽通过 Gaussian noise augmentation 和 CFG 缓解了时序漂移,但长时程视频(多段自回归)仍面临误差累积风险。论文将引入更长 motion context 或基于记忆机制的方案列为未来工作。