arXiv 2301.04104 · 强化学习 · Google DeepMind

DreamerV3:用世界模型掌控多样领域

Mastering Diverse Domains through World Models
Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap  ·  Google DeepMind & University of Toronto

DreamerV3 是首个用单一固定超参数配置在 150+ 个不同领域任务上全面超越专用调参算法的通用强化学习方法。通过学习一个紧凑的世界模型,在想象空间中训练 actor-critic,并引入 symlog 压缩与收益归一化等鲁棒性技术,DreamerV3 实现了跨域泛化——并成为首个从零(无人类数据)在 Minecraft 中收集到钻石的算法。

arXiv 2023-01 150+ 任务 单卡 A100 📄 arXiv:2301.04104 Project Page
world model DreamerV3 model-based RL RSSM symlog 压缩 强化学习 Minecraft 跨域泛化

01 动机

强化学习已在围棋、电子游戏等单一领域取得突破,但每换一个新任务就需要重新调参——这严重限制了 RL 的实用价值。作者提出的核心问题是:

"Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence."

现有专用算法(MuZero、PPG、IMPALA 等)在各自领域表现优异,却无法直接迁移:不同任务的奖励量纲、观测模态(图像/本体感知/向量)、回报范围差异极大,导致相同的损失函数和归一化假设在跨域时崩溃。DreamerV3 的目标是用一套固定超参数覆盖连续控制、离散游戏、3D 导航、开放世界等所有场景。

benchmark summary
Figure 1:基准汇总。 (a) 固定超参数下,Dreamer 在所有基准和数据预算上超越专用调参算法,同时大幅超过广泛适用的 PPO 高质量实现。(b) 开箱即用,Dreamer 学会从零在 Minecraft 中获取钻石——此前方法均需人类数据或领域特定启发式。
150+评测任务总数
超参数配置(无调参)
1 GPUMinecraft 训练仅需 1 张 A100 × 9 天
100%Dreamer 代理均发现 Minecraft 钻石

02 方法

DreamerV3 由三个模块组成:世界模型(World Model)将真实轨迹压缩为紧凑表征;Actor 在想象轨迹中学习策略;Critic 估计状态价值。三者联合训练,但 actor 与 critic 仅在想象空间更新,大幅提升样本效率。

training process
Figure 3:DreamerV3 训练流程。 (a) World Model Learning:编码器将感知输入 x_t 映射到离散表征 z_t,序列模型(GRU)维护循环状态 h_t,并在给定动作 a_t 的条件下预测下一表征;解码器重建输入以塑造表征质量。(b) Actor-Critic Learning:actor 和 critic 在世界模型想象的抽象表征轨迹上更新,预测动作 a_t 和价值 v_t。

世界模型:RSSM 架构

世界模型基于 Recurrent State Space Model (RSSM),包含以下组件:

世界模型损失:L(φ) = β_pred · L_pred + β_dyn · L_dyn + β_rep · L_rep,权重分别为 1、1、0.1。动态损失和表征损失均通过 KL 散度(free bits 剪裁至 1 nat)相互约束,让序列模型与编码器共同进步。

鲁棒性关键技术:SymLog 压缩与收益归一化

跨域适用性的核心在于对不同量纲目标的统一处理:

03 实验

DreamerV3 在 7 大基准、150+ 任务上用同一套固定超参数进行评测,对比方法包括各基准的专用 SOTA 算法及高质量 PPO 实现。所有实验均在单张 A100 GPU 上完成。

基准数据量主要对比方法结果
Atari 57(200M frames)200M 帧MuZero, Rainbow, IQN超越 MuZero(使用更少算力)
Atari 100k(26 games, 400K frames)400K 帧IRIS, TWM, SPR, SimPLe超越所有方法(EfficientZero 用重置不公平)
ProcGen(16 games, 50M frames)50M 帧PPG(调参专用), Rainbow匹敌调参 PPG,超越 Rainbow
DMLab(30 tasks, 100M frames)100M 帧IMPALA, R2D2+(1B 步)数据效率提升超过 1000%
本体感知控制(18 tasks, 500K steps)500K 步D4PG, DMPO, MPO新 SOTA
视觉控制(20 tasks, 1M steps)1M 步DrQ-v2, CURL新 SOTA
BSuite(468 configurations)Boot DQN新 SOTA
minecraft diamond progress
Figure 5:Minecraft 钻石任务中各代理发现关键物品的比例。 对比算法(IMPALA、Rainbow)最多到达铁镐阶段,从未发现钻石。"All the Dreamer agents we trained on Minecraft discover diamonds in 100M environment steps." Dreamer 是唯一可靠获得钻石的算法,且无需人类数据或课程学习。

消融实验与规模扩展

ablations and scaling
Figure 6:消融与规模扩展。 (a) 所有鲁棒性技术均对平均性能有贡献,但每项技术仅影响部分任务的子集。(b) Dreamer 主要依赖世界模型的无监督重建损失,而非奖励/价值梯度(这与大多数先前算法相反)。(c) 模型规模从 12M 增大到 400M 参数时,任务性能单调提升,且更大模型所需的环境交互次数更少。(d) 更高的 replay ratio 可预期地提升性能,与模型规模结合可通过增加算力系统性地改善结果。

消融实验表明:"The performance of Dreamer predominantly rests on the unsupervised reconstruction loss of its world model, unlike most prior algorithms that rely predominantly on reward and value prediction gradients." 其中 KL 目标(世界模型动态损失与表征损失)是最关键的学习信号;收益归一化和 symexp twohot 损失次之。

04 局限性

说明:论文未设专门的 Limitations 章节。以下条目来源:前两项为作者在正文中明确提及的约束条件,后两项为从方法设计推断(标注为inferred)。
计算资源需求较高(stated)

Minecraft 实验需要单张 A100 GPU 训练 9 天。尽管与 VPT 的 720 GPU × 9 天相比已大幅降低,但对于普通研究者仍是不小的成本。模型规模从 12M 到 400M 参数的实验也需要相应算力支撑。

超参数仍需人工选定(stated)

论文声称"固定超参数"跨域使用,但这套超参数本身是在广泛实验后选定的。作者在附录中指出,某些超参数(如折扣因子 γ = 0.997)在一些任务上并非最优,只是在所有任务上"足够好"。

离散动作空间与连续动作空间的统一处理(inferred)

DreamerV3 在两种动作空间均有评测,但 actor 的梯度估计方式不同(连续用重参数化,离散用 straight-through estimator),可能在某些任务上引入额外方差。论文未针对这一差异做专项分析。

世界模型的表征能力瓶颈(inferred)

RSSM 的离散表征(32×32 one-hot)和固定预测 horizon(T=16 步)在极长时序依赖或高度随机环境中可能成为瓶颈。论文在 DMLab(需要空间+时序推理)上已体现出世界模型的优势,但更长期规划的场景未被深入分析。