DreamerV3：用世界模型掌控多样领域

01 动机

强化学习已在围棋、电子游戏等单一领域取得突破，但每换一个新任务就需要重新调参——这严重限制了 RL 的实用价值。作者提出的核心问题是：

"Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence."

现有专用算法（MuZero、PPG、IMPALA 等）在各自领域表现优异，却无法直接迁移：不同任务的奖励量纲、观测模态（图像/本体感知/向量）、回报范围差异极大，导致相同的损失函数和归一化假设在跨域时崩溃。DreamerV3 的目标是用一套固定超参数覆盖连续控制、离散游戏、3D 导航、开放世界等所有场景。

benchmark summary — **Figure 1：基准汇总。** (a) 固定超参数下，Dreamer 在所有基准和数据预算上超越专用调参算法，同时大幅超过广泛适用的 PPO 高质量实现。(b) 开箱即用，Dreamer 学会从零在 Minecraft 中获取钻石——此前方法均需人类数据或领域特定启发式。

150+评测任务总数

1×超参数配置（无调参）

1 GPUMinecraft 训练仅需 1 张 A100 × 9 天

100%Dreamer 代理均发现 Minecraft 钻石

02 方法

DreamerV3 由三个模块组成：世界模型（World Model）将真实轨迹压缩为紧凑表征；Actor 在想象轨迹中学习策略；Critic 估计状态价值。三者联合训练，但 actor 与 critic 仅在想象空间更新，大幅提升样本效率。

training process — **Figure 3：DreamerV3 训练流程。** (a) World Model Learning：编码器将感知输入 x_t 映射到离散表征 z_t，序列模型（GRU）维护循环状态 h_t，并在给定动作 a_t 的条件下预测下一表征；解码器重建输入以塑造表征质量。(b) Actor-Critic Learning：actor 和 critic 在世界模型想象的抽象表征轨迹上更新，预测动作 a_t 和价值 v_t。

世界模型：RSSM 架构

世界模型基于 Recurrent State Space Model (RSSM)，包含以下组件：

Encoder：图像输入用 CNN，向量输入用 MLP，输出随机表征 z_t（32 类别 × 32 维 one-hot）。
Sequence Model（GRU）：维护确定性循环状态 h_t，接收上一动作 a_{t-1} 预测下一表征。
Dynamics Predictor：从 h_t 预测 z_t（用于 imagination 阶段）。
Reward / Continue Predictors：预测奖励 r_t 和 episode 终止标志 c_t。
Decoder：重建输入 x_t，监督表征学习。

世界模型损失：L(φ) = β_pred · L_pred + β_dyn · L_dyn + β_rep · L_rep，权重分别为 1、1、0.1。动态损失和表征损失均通过 KL 散度（free bits 剪裁至 1 nat）相互约束，让序列模型与编码器共同进步。

鲁棒性关键技术：SymLog 压缩与收益归一化

跨域适用性的核心在于对不同量纲目标的统一处理：

SymLog Transformation：symlog(x) = sign(x) · ln(|x|+1)，对大正负值对称压缩，用于重建损失和 critic 目标；避免了截断大目标、引入非平稳性等替代方案的缺陷。
SymExp TwoHot 分类损失：Critic 输出对数量化 bin 上的 softmax 分布（指数间距），用软标签分类交叉熵替代回归，梯度尺度与目标量级解耦。
收益归一化（Return Normalization）：Actor 目标用 5th-95th 百分位范围 S = EMA(Per(R, 95) − Per(R, 5), 0.99) 归一化，固定熵系数 η = 3×10⁻⁴，消除不同任务绝对奖励量纲的影响。
Unimix 分类分布：所有分类分布混合 1% 均匀分布，防止确定性塌陷。
零初始化输出层：奖励预测器和 critic 的输出层权重初始化为零，稳定早期训练。

03 实验

DreamerV3 在 7 大基准、150+ 任务上用同一套固定超参数进行评测，对比方法包括各基准的专用 SOTA 算法及高质量 PPO 实现。所有实验均在单张 A100 GPU 上完成。

基准	数据量	主要对比方法	结果
Atari 57（200M frames）	200M 帧	MuZero, Rainbow, IQN	超越 MuZero（使用更少算力）
Atari 100k（26 games, 400K frames）	400K 帧	IRIS, TWM, SPR, SimPLe	超越所有方法（EfficientZero 用重置不公平）
ProcGen（16 games, 50M frames）	50M 帧	PPG（调参专用）, Rainbow	匹敌调参 PPG，超越 Rainbow
DMLab（30 tasks, 100M frames）	100M 帧	IMPALA, R2D2+（1B 步）	数据效率提升超过 1000%
本体感知控制（18 tasks, 500K steps）	500K 步	D4PG, DMPO, MPO	新 SOTA
视觉控制（20 tasks, 1M steps）	1M 步	DrQ-v2, CURL	新 SOTA
BSuite（468 configurations）	—	Boot DQN	新 SOTA

minecraft diamond progress — **Figure 5：Minecraft 钻石任务中各代理发现关键物品的比例。** 对比算法（IMPALA、Rainbow）最多到达铁镐阶段，从未发现钻石。*"All the Dreamer agents we trained on Minecraft discover diamonds in 100M environment steps."* Dreamer 是唯一可靠获得钻石的算法，且无需人类数据或课程学习。

消融实验与规模扩展

ablations and scaling — **Figure 6：消融与规模扩展。** (a) 所有鲁棒性技术均对平均性能有贡献，但每项技术仅影响部分任务的子集。(b) Dreamer 主要依赖世界模型的无监督重建损失，而非奖励/价值梯度（这与大多数先前算法相反）。(c) 模型规模从 12M 增大到 400M 参数时，任务性能单调提升，且更大模型所需的环境交互次数更少。(d) 更高的 replay ratio 可预期地提升性能，与模型规模结合可通过增加算力系统性地改善结果。

消融实验表明："The performance of Dreamer predominantly rests on the unsupervised reconstruction loss of its world model, unlike most prior algorithms that rely predominantly on reward and value prediction gradients." 其中 KL 目标（世界模型动态损失与表征损失）是最关键的学习信号；收益归一化和 symexp twohot 损失次之。

04 局限性

说明：论文未设专门的 Limitations 章节。以下条目来源：前两项为作者在正文中明确提及的约束条件，后两项为从方法设计推断（标注为inferred）。

计算资源需求较高（stated）

Minecraft 实验需要单张 A100 GPU 训练 9 天。尽管与 VPT 的 720 GPU × 9 天相比已大幅降低，但对于普通研究者仍是不小的成本。模型规模从 12M 到 400M 参数的实验也需要相应算力支撑。

超参数仍需人工选定（stated）

论文声称"固定超参数"跨域使用，但这套超参数本身是在广泛实验后选定的。作者在附录中指出，某些超参数（如折扣因子 γ = 0.997）在一些任务上并非最优，只是在所有任务上"足够好"。

离散动作空间与连续动作空间的统一处理（inferred）

DreamerV3 在两种动作空间均有评测，但 actor 的梯度估计方式不同（连续用重参数化，离散用 straight-through estimator），可能在某些任务上引入额外方差。论文未针对这一差异做专项分析。

世界模型的表征能力瓶颈（inferred）

RSSM 的离散表征（32×32 one-hot）和固定预测 horizon（T=16 步）在极长时序依赖或高度随机环境中可能成为瓶颈。论文在 DMLab（需要空间+时序推理）上已体现出世界模型的优势，但更长期规划的场景未被深入分析。