机器人 · Robotics · arXiv 2601.02427

NitroGen

An Open Foundation Model for Generalist Gaming Agents
Loïc Magne*, Anas Awadalla*, Guanzhi Wang* 等 · NVIDIA, Stanford, Caltech, UChicago, UT Austin

NitroGen 是首个在互联网规模游戏视频(40,000 小时、1,000+ 款游戏)上训练的开放视觉-动作基础模型。通过自动从手柄叠加层中提取动作,系统消除了昂贵的人工标注,并通过 flow matching 生成动作序列——迁移至未见过的游戏时,任务完成率最高提升 52%

arXiv · Jan 2026 cs.CV · cs.LG · cs.AI 40,000 小时游戏视频 📄 arXiv:2601.02427 🌐 Project Page
游戏智能体 行为克隆 视觉-动作模型 flow matching diffusion transformer internet-scale pretraining gamepad action extraction 迁移学习 通用游戏基础模型

01 动机

电子游戏是训练通用具身智能体的理想沙盒:它们种类繁多、规则多样、且无需物理硬件。然而,现有方法要么依赖手工设计的 API(如 Voyager),要么需要昂贵的强化学习训练(如 DQN、AlphaStar),要么人工演示数据规模极为有限。本文的核心问题是:能否直接从互联网上海量、嘈杂的玩家录像中,自动学习跨越千款游戏的视觉-动作策略?

"We present a vision-action foundation model trained on 40,000 hours of gameplay videos across more than 1,000 games."
NitroGen overview
图1:NitroGen 系统概览。模型接受单帧画面输入,输出 16 步手柄动作序列,可在格斗、平台跳跃、探索等多类型游戏中表现出非平凡的成功率。数据集、评测套件与模型权重均开放发布。
40K训练视频总时长(小时)
1,000+覆盖游戏数量
52%战斗任务迁移相对提升
30跨 10 款游戏的评测任务

02 方法

NitroGen 由三个相互配合的核心模块构成:(1)互联网规模视频-动作数据集的自动构建流水线;(2)涵盖 10 款游戏、30 个任务的多游戏评测基准;(3)基于 flow matching 的统一视觉-动作基础模型。

数据采集与动作提取

研究者从视频平台抓取了 71,000 小时含手柄叠加层(gamepad overlay)的游戏录像,来自 818 位创作者的 38,739 个视频。经过三阶段流水线处理后,保留了 40,000 小时高质量数据:

data pipeline
图2:视频-动作数据采集流水线。从网络视频中定位手柄叠加层,经模板匹配、分割解析、质量过滤三个阶段,自动提取高精度游戏动作标注。
action extraction pipeline
图3:动作提取流水线详情。对每一帧检测手柄区域,利用 SegFormer 分割摇杆和按键区域,解析出连续摇杆坐标(R²=0.84)和按键二值状态(accuracy=0.96)。
dataset distribution
图3(续):数据集游戏分布。(左)按游戏统计时长:846 款游戏超 1 小时,91 款超 100 小时,15 款超 1,000 小时。(右)按游戏类型:Action-RPG 占 34.9%,Platformer 占 18.4%,Action-Adventure 占 9.2%。

视觉-动作基础模型架构

模型以 flow matching 框架为核心,通过扩散变换器(Diffusion Transformer, DiT)在给定单帧视觉观测的条件下,生成未来的动作序列块(action chunk):

in-game rollouts
图4:多款游戏中的策略展示(rollouts)。NitroGen 在 2D 平台跳跃、3D 动作角色扮演、随机生成地图探索等多类型游戏中均能完成有效操作,展示出跨游戏类型的泛化能力。

03 实验

评测在统一 Gymnasium API 封装的 10 款商业游戏(5 款 2D、5 款 3D)上进行,覆盖格斗、导航、游戏特有机制共 30 个任务,采用人工评估衡量任务完成率(task success rate)。

动作提取精度

parsing accuracy
图5:手柄解析精度验证。(a)摇杆 R² 相关分数,各手柄家族均值为 0.84;(b)按键帧级别精度,均值为 0.96——证明自动提取的动作标注质量足以支撑大规模行为克隆预训练。

零样本跨游戏性能

zero-shot performance
图6:零样本(zero-shot)跨游戏表现。NitroGen 在未经微调的情况下,在多款外观风格和类型迥异的游戏上均取得非平凡的成功率,证明了"trained on a very noisy internet dataset"的模型仍具有跨域泛化能力。

预训练迁移(Transfer Learning)结果

transfer learning results
图7:预训练对下游微调的提升效果。NitroGen 预训练权重在迁移至未见过的游戏时,相比从头训练(from scratch)取得显著提升。
游戏类型 / 任务类别从头训练(Scratch)NitroGen 预训练微调相对提升
等距俯视 Roguelike(平均)基线+10% 相对提升+10%
3D Action-RPG(平均)基线+25% 相对提升+25%
3D Action-RPG · 格斗任务基线最高 +52% 相对提升+52%
3D Action-RPG · 导航任务基线+25% 相对提升+25%
3D Action-RPG · 游戏特有任务基线+5% 相对提升+5%

评测基准构成

研究者开发了通用 Gymnasium API 封装器,支持任意商业游戏接入,并设计了跨 10 款游戏的 30 个任务,覆盖格斗(combat)、导航(navigation)和游戏特有机制(game-specific mechanics)三大类别。所有任务均采用人工评估以保证评测可靠性。

注意:由于商业游戏版权限制,当前评测基准和数据集详情无法完全开放,但模型权重已在 nitrogen.minedojo.org 开放发布。

04 局限性

Note: 以下局限性部分由作者在论文中明确陈述(标注为 stated),部分由设计推断(标注为 inferred)。
缺乏长程规划与语言条件化(stated)

NitroGen 是"System-1"反应式模型,依赖单帧视觉输入生成短期动作序列,无法进行多步推理、任务分解或响应自然语言指令。作者指出未来工作包括语言跟随(language following)和强化学习后训练(RL post-training)。

数据集偏向动作类游戏(stated)

数据集中 Action-RPG 占 34.9%,Platformer 占 18.4%,而策略游戏(strategy)和键盘主导(keyboard-centric)游戏代表性不足,导致模型在这些类型上的泛化能力可能受限。

动作标注存在系统性噪声(inferred)

视频中的动作提取存在固有延迟(视频编码延迟、手柄叠加层刷新延迟)和各创作者手柄型号/布局差异带来的解析误差。尽管摇杆 R²=0.84、按键精度=0.96,但残余噪声仍可能限制精细操控任务的学习效果。

评测依赖人工标注,可扩展性有限(inferred)

30 个评测任务的成功率判断依赖人工评估,难以扩展到大规模自动化测试。与 RL 环境不同,商业游戏缺乏程序化奖励信号,使得大规模、可重复的定量比较存在挑战。