生成模型 · Generative Models · ICML 2024

Genie: Generative Interactive Environments

首个从无标注网络视频无监督训练的生成式交互环境基础模型
Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald & 等 (Google DeepMind)

Genie 是一个 110 亿参数的基础世界模型(foundation world model),仅凭未标注的互联网视频训练,即可从单张图片、文字描述或手绘草图生成可逐帧交互的虚拟环境。模型无需任何动作标注,自行学习离散的潜在动作空间(latent action space),使智能体能够在生成的环境中通过模仿学习来训练。

arXiv 2402.15391 · 2024-02 11B 参数 256 TPUv5p · 125k steps 📄 arXiv:2402.15391 🌐 Project page
world model generative interactive environment latent action model spatiotemporal transformer MaskGIT 无监督动作学习 video tokenizer foundation world model

01 动机

生成式 AI 已能生成高质量的文本、图像和视频,但真正可交互的虚拟环境仍高度依赖人工设计或带标注的数据。能否从海量无标注的网络视频中,自动学习出一个可供智能体"玩耍"的交互世界?

"We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos."
Genie 生成的多样轨迹
图 1:Genie 从文字提示、手绘草图或真实照片生成 2D 平台游戏场景,并通过学到的潜在动作逐帧控制游戏进程。同一个提示下可产生风格各异的可玩环境。
11B总参数量
6.8M训练视频(30k 小时,2D 游戏)
8离散潜在动作数(无人工标注)
~1 FPS当前推理速度

现有方法要么依赖真实动作标注(如环境模拟器日志),要么只能生成被动视频,无法响应用户交互。Genie 的核心洞见在于:动作信息隐含在视频帧的时序变化之中——只要能从相邻帧中推断出潜在动作,便可在完全无标注的条件下学习一个可控的动态模型。

02 方法

Genie 由三个协同训练的模块构成:时空视频 tokenizer(将视频帧压缩为离散 token)、潜在动作模型(LAM)(无监督推断帧间动作)、以及自回归动态模型(依据动作预测下一帧)。推理时,LAM 被丢弃,用户直接输入 codebook 索引来控制生成。

Genie 整体训练流程
图 2:Genie 训练流程。视频帧先经 ST-ViViT tokenizer 编码为离散 token;LAM 从像素级帧对中推断潜在动作;动态模型(MaskGIT)以 token + 动作 embedding 为输入,预测下一帧 token;最终用 VQ-VAE decoder 重建像素图像。

① 时空视频 Tokenizer(ST-ViViT)

tokenizer 采用改进的 VQ-VAE 架构,将视频建模为二维 token 网格(空间 × 时间)。空间 attention 在每一帧内处理 O(H×W) 个 token,时间 attention 则跨帧处理 O(T) 个 token,相比 C-ViViT 的全时空 attention 大幅降低显存。因果遮罩(causal masking)保证编码时不泄露未来信息,使 tokenizer 可在流式场景中使用。

ST-Transformer 结构
图 3:ST-Transformer 交错执行空间 attention 与时间 attention,同时使用因果遮罩。相比 C-ViViT,在同等性能下显存仅需 0.9 GB(C-ViViT 需 1.6 GB)。

② 潜在动作模型(Latent Action Model, LAM)

LAM 以像素级别的前若干帧和当前帧为输入,通过 VQ-VAE 编码器推断出离散潜在动作(codebook 大小为 8),再由解码器以前几帧 + 潜在动作重建当前帧。VQ-VAE 的信息瓶颈迫使 codebook 只保留决定帧间差异的最关键信号——即动作。论文特别指出,像素输入比 token 输入更好地保留了运动信息,在可控性指标 ΔtPSNR 上提升明显(1.91 vs 1.33)。

LAM 架构
图 4:Latent Action Model 结构。编码器输入前帧 + 当前帧,解码器输入前帧 + 潜在动作,VQ 瓶颈约束 codebook 仅存储动作相关信息。推理时 LAM 被丢弃,用户直接操控 codebook 索引。

③ 自回归动态模型(MaskGIT Dynamics Model)

动态模型基于 MaskGIT 架构,输入为历史帧的视频 token 序列加上对应的潜在动作 embedding(加性注入,效果优于拼接),预测下一帧的 token 分布。训练时随机遮罩 50%–100% 的目标 token 并用交叉熵损失优化;推理时经 25 步迭代采样还原完整帧。动态模型占整体参数量的 10.1B(LAM 300M + tokenizer 200M)。

03 实验

主要实验在两个域进行:Platformers(6.8M 视频,约 30k 小时,2D 平台游戏)和Robotics(~130k 机器人演示 + 209k 真实场景片段)。评估指标包括视频质量 FVD(Fréchet Video Distance,越低越好)和可控性 ΔtPSNR(越高越好)。

Tokenizer 架构消融

架构显存FVD ↓ΔtPSNR ↑
ViT(仅空间 attention)0.3 GB114.51.39
C-ViViT1.6 GB272.71.37
ST-ViViT(本文)0.9 GB81.41.66

LAM 输入方式消融

LAM 输入FVD ↓ΔtPSNR ↑
Token 输入38.81.33
像素输入(本文)40.11.91

像素输入在 FVD 上略差,但显著提升了可控性(ΔtPSNR +0.58),实验选择像素输入以优先保证可交互性。

缩放实验

模型大小与 batch size 缩放曲线
图 8:从 40M 到 2.7B 参数规模,token 预测 loss 持续下降,验证 Genie 具备良好的缩放性质(scaling law)。增大 batch size(128→448)同样带来性能提升。

泛化到分布外提示(OOD Prompts)

OOD 提示图
图 9:Genie 能够接受 Imagen 2 生成图、手绘草图、真实照片作为提示,生成风格迥异但可交互的场景,展示了跨域泛化能力。

智能体训练(Agent Training)

智能体训练结果
图 14:在 Genie 生成的 CoinRun 环境中,仅用行为克隆(BC)训练的智能体在 200 个专家样本下即可匹配"oracle BC"基线(即在真实环境中训练),验证了 Genie 作为训练环境的可行性。

机器人域结果

在机器人演示数据上(Robotics 域),2.5B 参数版本 FVD 达到 82.7。模型在无任何物理先验的情况下自发学会了可形变物体的物理规律(如布料折叠、软体运动)以及平台游戏中的视差效果(parallax)——前景运动快于背景,体现出对 3D 深度的隐式理解。

04 局限性

说明:以下局限性均为作者在论文中明确陈述(stated by the authors)。
长时生成的幻觉(Hallucinations over Long Horizons)

自回归生成存在误差累积问题:模型记忆窗口仅为 16 帧,超出此范围后场景一致性明显下降,出现物体消失、背景突变等幻觉现象。

推理速度慢(~1 FPS)

当前推理速度约 1 FPS,远低于真实游戏交互所需的帧率(30+ FPS)。每帧需执行 25 步 MaskGIT 采样,计算代价高昂,实时交互尚不可行,论文将提速列为未来工作。

模型未开源(Model Not Released)

受多种因素限制,完整模型权重未对外发布。作者提供了可复现的 CoinRun 案例研究(case study)作为替代,但社区无法直接在此基础上进行下游研究或微调。

训练域偏窄(Limited to 2D Platformers / Robotics)

当前模型主要在 2D 游戏和机器人演示上验证,尚未扩展至 3D 场景、第一人称视角或真实世界复杂环境。潜在动作空间的语义是否能迁移到更复杂的动作空间(如连续动作)仍有待探索。