Matrix-Game: Interactive World Foundation Model

01 动机 Motivation

世界模型是智能体感知、模拟和推理环境动态的核心。然而，现有可交互视频生成方法面临三重瓶颈：数据匮乏（精标动作视频采集昂贵）、物理动态难以建模（细粒度时序可控性不足）、以及评测标准缺失（缺乏客观比较的统一基准）。

"Interactive video datasets with rich annotations (e.g., precise actions, camera movement) are scarce and expensive to collect, especially at scale."

Matrix-Game Minecraft desert teaser — Figure 1(a)：Matrix-Game 在 Minecraft Desert 场景中的可控生成示例。模型能在沙漠、海滩、森林、山地、冰原、平原、河流、蘑菇岛等 8 种生物群系中精确响应用户输入，同时保持视觉真实感。

17B模型参数量

3,900+训练数据总时长（小时）

0.95键盘动作准确率 Keyboard Accuracy

96.3%人类评测综合胜率 Overall Win Rate

与 Oasis 和 MineWorld 等已有开源世界模型相比，Matrix-Game 在可控性（keyboard / mouse accuracy）和物理一致性（object consistency）上取得显著提升，同时维持高视觉质量与时序流畅度。

02 方法 Method

Matrix-Game 采用 image-to-world 范式：以单帧图像为条件，通过 3D Causal VAE 压缩时空信息，再由 Multi-Modal Diffusion Transformer (MMDiT) 生成动作条件视频，并借助自回归策略实现长时程连续生成。

Matrix-Game architecture overview — Figure 4：Matrix-Game 整体架构——3D Causal VAE（空间 8× / 时序 4× 压缩）将输入帧编码为 latent，MMDiT 在此空间进行去噪生成；动作控制信号（键盘离散指令 + 鼠标连续偏角）作为额外条件注入。

两阶段训练流程

Stage 1 — 无标注视频预训练：在 2,700 小时 720p Minecraft 原始视频上进行大规模预训练，帮助模型习得场景外观、物理规律与时序动态。原始数据经三级分层过滤（视频质量评估 → 菜单/字幕/人脸清除 → 运动模糊过滤），最终保留 870 小时高质量子集。支持变长帧数（17 / 33 / 65 帧）与多种宽高比（16:9 / 4:3 / 21:9）。

Stage 2 — 精标动作微调：在 1,200 小时带精确键盘 + 鼠标标注的视频上进行监督训练，使模型能精确响应帧级动作控制信号。标注数据来源于 MineRL 智能体自主探索（VPT 模型，16Hz 采样）和 Unreal 程序化仿真两条管线，覆盖 14 种生物群系，每类占比 4–7%，保证语义多样性。

动作控制模块

Matrix-Game 支持两类控制信号：

键盘离散动作（前/后/左/右/跳跃/攻击）：通过 cross-attention 注入 MMDiT。
鼠标连续输入（俯仰角变化量，摄像机控制）：经 MLP 编码后通过 temporal self-attention 融合。

Diffusion transformer block details — Figure 6：Matrix-Game diffusion transformer block 细节。MMDiT 架构将视频 token 与图像 token 在 token 维度拼接，动作控制信号作为独立 condition 注入，键盘经 cross-attention、鼠标经 MLP + temporal self-attention 集成。

自回归长视频生成

为突破单次生成固定帧长的限制，模型采用自回归策略：每个生成片段末尾的 k=5 帧 latent 与下一段 noisy latent 在 channel 维度拼接，并附 binary mask 指示有效运动帧。同时以 0.2 概率向 motion frame 添加 Gaussian noise、以 0.25 概率将其替换为零 latent（classifier-free guidance），从而抑制误差累积并提升长时稳定性。

Data filtering pipeline — Figure 3：Matrix-Game-MC 无标注数据三阶段分层过滤流程——Stage 1 过滤低质量画面，Stage 2 清除游戏菜单、字幕与人脸，Stage 3 过滤运动模糊与不合理摄像机移动，最终保留高质量训练数据。

03 实验 Experiments

作者提出 GameWorld Score——一个覆盖 4 大支柱、8 个维度的统一评测基准，并在该基准上与 Oasis 和 MineWorld 进行全面对比，同时进行人类双盲评测。

GameWorld Score benchmark structure — Figure 7：GameWorld Score 基准结构。四大支柱：Visual Quality（Image Quality + Aesthetic）、Temporal Quality（Temporal Consistency + Motion Smoothness）、Action Controllability（Keyboard Accuracy + Mouse Accuracy）、Physical Rule Understanding（Object Consistency + Scenario Consistency）。

主要定量结果（Table 2）

指标 Metric	Oasis	MineWorld	Matrix-Game
Image Quality	0.65	0.69	0.72
Aesthetic	0.48	0.47	0.49
Temporal Consistency	0.94	0.95	0.97
Motion Smoothness	0.98	0.98	0.98
Keyboard Accuracy	0.77	0.86	0.95
Mouse Accuracy	0.56	0.64	0.95
Object Consistency	0.56	0.51	0.76
Scenario Consistency	0.86	0.92	0.93

Matrix-Game 在全部 8 个维度均超过 Oasis 和 MineWorld，尤其在可控性（Keyboard Accuracy: 0.95 vs 0.77 / 0.86；Mouse Accuracy: 0.95 vs 0.56 / 0.64）和物理一致性（Object Consistency: 0.76 vs 0.56 / 0.51）方面优势显著。

细粒度键盘动作准确率（Table 3 节选）

动作 Action	Oasis	MineWorld	Matrix-Game
Forward	0.85	0.86	0.99
Left	0.80	0.87	0.92
Right	0.79	0.88	0.96
Jump	0.77	0.82	0.88

GameWorld Score radar chart — Figure 2：GameWorld Score 雷达图对比。Matrix-Game（蓝色）在全部 8 个维度上均领先 Oasis 和 MineWorld，特别在 Keyboard Accuracy 和 Mouse Accuracy 两个可控性维度提升幅度最大。Aesthetic 维度已 ×2 缩放以便可视化。

人类双盲评测

Human evaluation results — Figure 8：人类双盲评测结果（win rate vs Oasis + MineWorld）。Matrix-Game 在 Overall Quality（96.30%）、Visual Quality（98.23%）、Controllability（93.76%）和 Temporal Consistency（89.56%）四个维度均显著领先。

96.30%Overall Quality 胜率

98.23%Visual Quality 胜率

93.76%Controllability 胜率

89.56%Temporal Consistency 胜率

消融与 Scenario 泛化

模型在 8 种 Minecraft 生物群系（beach、desert、forest、hills、icy、mushroom、plains、river）上进行测试。论文指出："Our model consistently outperforms existing open-source baselines...across all eight scenarios."。键盘动作 IDM（Inverse Dynamics Model）分类准确率为 90.6%，鼠标运动回归 R² 达 0.97，验证了评测指标的可靠性。

04 局限性 Limitations

Note：以下局限性由作者在论文 Failure Cases 及 Conclusion 节明确陈述，并附有可视化示例（Figure 11）。

边缘场景泛化不足

"The model may occasionally struggle with precise controllability or spatial consistency in rare biomes or edge cases, typically due to insufficient data coverage."——在数据覆盖不足的罕见生物群系或极端场景下，模型偶尔出现可控性下降或空间一致性问题。

物理理解存在盲区

"There is still room to further enhance its understanding of physical dynamics, particularly in interactions such as object collisions or terrain traversal"——对于物体碰撞、穿越特定地形（如树叶）等涉及精细物理交互的场景，模型仍可能出现穿模或物理错误（如角色走过树叶时不符合物理规律）。

动作空间与游戏场景受限

当前鼠标控制范围有限（每帧最大 15° 偏转），键盘动作空间也未覆盖 Minecraft 全部操作。模型目前仅在 Minecraft 场景训练，作者将扩展至 Black Myth: Wukong、赛车模拟器、CS:GO 等复杂游戏作为未来工作。

长时序误差累积

自回归生成策略虽通过 Gaussian noise augmentation 和 CFG 缓解了时序漂移，但长时程视频（多段自回归）仍面临误差累积风险。论文将引入更长 motion context 或基于记忆机制的方案列为未来工作。