NitroGen: An Open Foundation Model for Generalist Gaming Agents

01 动机

电子游戏是训练通用具身智能体的理想沙盒：它们种类繁多、规则多样、且无需物理硬件。然而，现有方法要么依赖手工设计的 API（如 Voyager），要么需要昂贵的强化学习训练（如 DQN、AlphaStar），要么人工演示数据规模极为有限。本文的核心问题是：能否直接从互联网上海量、嘈杂的玩家录像中，自动学习跨越千款游戏的视觉-动作策略？

"We present a vision-action foundation model trained on 40,000 hours of gameplay videos across more than 1,000 games."

NitroGen overview — **图1：NitroGen 系统概览。**模型接受单帧画面输入，输出 16 步手柄动作序列，可在格斗、平台跳跃、探索等多类型游戏中表现出非平凡的成功率。数据集、评测套件与模型权重均开放发布。

40K训练视频总时长（小时）

1,000+覆盖游戏数量

52%战斗任务迁移相对提升

30跨 10 款游戏的评测任务

02 方法

NitroGen 由三个相互配合的核心模块构成：（1）互联网规模视频-动作数据集的自动构建流水线；（2）涵盖 10 款游戏、30 个任务的多游戏评测基准；（3）基于 flow matching 的统一视觉-动作基础模型。

数据采集与动作提取

研究者从视频平台抓取了 71,000 小时含手柄叠加层（gamepad overlay）的游戏录像，来自 818 位创作者的 38,739 个视频。经过三阶段流水线处理后，保留了 40,000 小时高质量数据：

模板匹配（Template Matching）：使用约 300 种常见手柄模板，以 SIFT 和 XFeat 特征进行匹配，至少需要 20 个内点（inliers）才视为有效检测。
手柄解析（Gamepad Parsing）：使用 SegFormer 分割模型处理连续帧对，输出 11×11 离散网格上的摇杆位置及各按键的二值状态。训练数据为通过程序化生成合成叠加层标注的 800 万帧。
质量过滤（Quality Filtering）：丢弃动作密度低于 50% 的片段（以避免 null-action 偏差），最终保留约 55% 的原始数据。

data pipeline — **图2：视频-动作数据采集流水线。**从网络视频中定位手柄叠加层，经模板匹配、分割解析、质量过滤三个阶段，自动提取高精度游戏动作标注。

action extraction pipeline — **图3：动作提取流水线详情。**对每一帧检测手柄区域，利用 SegFormer 分割摇杆和按键区域，解析出连续摇杆坐标（R²=0.84）和按键二值状态（accuracy=0.96）。

dataset distribution — **图3（续）：数据集游戏分布。**（左）按游戏统计时长：846 款游戏超 1 小时，91 款超 100 小时，15 款超 1,000 小时。（右）按游戏类型：Action-RPG 占 34.9%，Platformer 占 18.4%，Action-Adventure 占 9.2%。

视觉-动作基础模型架构

模型以 flow matching 框架为核心，通过扩散变换器（Diffusion Transformer, DiT）在给定单帧视觉观测的条件下，生成未来的动作序列块（action chunk）：

视觉编码器：SigLIP 2 视觉变换器，处理 256×256 RGB 输入，每帧生成 256 个图像 token。
动作生成：DiT 每次前向传播输出 16 步动作块，通过 MLP 将带噪声的动作块编码为每步一个 action token，再经过交替的 self-attention 与 cross-attention 层处理。
统一动作空间：标准化 16 维二值向量（手柄按键）+ 4 维连续摇杆向量，支持跨游戏泛化。
训练：AdamW 优化器（weight decay 0.001），warmup-stable-decay 学习率调度（恒定学习率 1e-4），batch size 256，EMA 衰减系数 0.9999。推理时使用 16 步 Euler 积分去噪。

in-game rollouts — **图4：多款游戏中的策略展示（rollouts）。**NitroGen 在 2D 平台跳跃、3D 动作角色扮演、随机生成地图探索等多类型游戏中均能完成有效操作，展示出跨游戏类型的泛化能力。

03 实验

评测在统一 Gymnasium API 封装的 10 款商业游戏（5 款 2D、5 款 3D）上进行，覆盖格斗、导航、游戏特有机制共 30 个任务，采用人工评估衡量任务完成率（task success rate）。

动作提取精度

parsing accuracy — **图5：手柄解析精度验证。**（a）摇杆 R² 相关分数，各手柄家族均值为 0.84；（b）按键帧级别精度，均值为 0.96——证明自动提取的动作标注质量足以支撑大规模行为克隆预训练。

零样本跨游戏性能

zero-shot performance — **图6：零样本（zero-shot）跨游戏表现。**NitroGen 在未经微调的情况下，在多款外观风格和类型迥异的游戏上均取得非平凡的成功率，证明了"trained on a very noisy internet dataset"的模型仍具有跨域泛化能力。

预训练迁移（Transfer Learning）结果

transfer learning results — **图7：预训练对下游微调的提升效果。**NitroGen 预训练权重在迁移至未见过的游戏时，相比从头训练（from scratch）取得显著提升。

游戏类型 / 任务类别	从头训练（Scratch）	NitroGen 预训练微调	相对提升
等距俯视 Roguelike（平均）	基线	+10% 相对提升	+10%
3D Action-RPG（平均）	基线	+25% 相对提升	+25%
3D Action-RPG · 格斗任务	基线	最高 +52% 相对提升	+52%
3D Action-RPG · 导航任务	基线	+25% 相对提升	+25%
3D Action-RPG · 游戏特有任务	基线	+5% 相对提升	+5%

评测基准构成

研究者开发了通用 Gymnasium API 封装器，支持任意商业游戏接入，并设计了跨 10 款游戏的 30 个任务，覆盖格斗（combat）、导航（navigation）和游戏特有机制（game-specific mechanics）三大类别。所有任务均采用人工评估以保证评测可靠性。

注意：由于商业游戏版权限制，当前评测基准和数据集详情无法完全开放，但模型权重已在 nitrogen.minedojo.org 开放发布。

04 局限性

Note: 以下局限性部分由作者在论文中明确陈述（标注为 stated），部分由设计推断（标注为 inferred）。

缺乏长程规划与语言条件化（stated）

NitroGen 是"System-1"反应式模型，依赖单帧视觉输入生成短期动作序列，无法进行多步推理、任务分解或响应自然语言指令。作者指出未来工作包括语言跟随（language following）和强化学习后训练（RL post-training）。

数据集偏向动作类游戏（stated）

数据集中 Action-RPG 占 34.9%，Platformer 占 18.4%，而策略游戏（strategy）和键盘主导（keyboard-centric）游戏代表性不足，导致模型在这些类型上的泛化能力可能受限。

动作标注存在系统性噪声（inferred）

视频中的动作提取存在固有延迟（视频编码延迟、手柄叠加层刷新延迟）和各创作者手柄型号/布局差异带来的解析误差。尽管摇杆 R²=0.84、按键精度=0.96，但残余噪声仍可能限制精细操控任务的学习效果。

评测依赖人工标注，可扩展性有限（inferred）

30 个评测任务的成功率判断依赖人工评估，难以扩展到大规模自动化测试。与 RL 环境不同，商业游戏缺乏程序化奖励信号，使得大规模、可重复的定量比较存在挑战。