Learning Latent Dynamics for Planning from Pixels（PlaNet）

01 动机（Motivation）

强化学习在控制任务上取得了令人瞩目的成果，但绝大多数成功案例都依赖 model-free 方法——需要与环境进行数以百万计的交互。当传感器只能提供高维图像时，样本效率问题更为严峻。利用学习到的动态模型（dynamics model）进行规划，理论上可以大幅减少所需交互，但长期以来难以在复杂的图像域中可靠地实现。

"Planning using learned models offers several benefits over model-free reinforcement learning. First, model-based planning can be more data efficient because it leverages a richer training signal and does not rely on propagating rewards through Bellman backups."

六种连续控制任务示例 — **Figure 1（论文原图）**：PlaNet 所测试的六种 DeepMind Control Suite 任务——Cartpole Swingup、Reacher Easy、Cheetah Run、Finger Spin、Cup Catch、Walker Walk。图像分辨率降采样至 64×64 像素后作为唯一观测，不提供物理状态。Cartpole/Finger Spin 仅有稀疏奖励；Cheetah/Walker 存在接触动力学。

6连续控制任务（DeepMind Control Suite）

50×比 D4PG 少的样本（Finger Spin 任务，100K episodes）

64×64像素输入分辨率（唯一观测）

1 GPUNvidia V100，10–20 小时训练

02 方法（Method）

PlaNet 的核心是 Recurrent State Space Model（RSSM）——一个同时包含确定性（deterministic）和随机性（stochastic）转移分量的隐状态空间模型。通过变分自编码器（VAE）框架从像素中学习该模型，再利用 Cross-Entropy Method（CEM）在隐空间中规划动作序列，无需任何策略网络。

RSSM 模型架构对比 — **Figure 2（论文原图）**：三种隐状态空间模型对比。(a) 纯确定性 RNN：转移完全确定，难以捕捉多模态未来；(b) 纯随机状态空间模型（SSM）：每步独立采样随机状态，信息传播受限；(c) RSSM（本文）：将隐状态分为确定性部分 *h_t*（由 GRU 维护）和随机部分 *s_t*，二者共同决定观测和奖励预测。这种设计使模型既能记忆长程历史，又能表示不确定性。

Recurrent State Space Model（RSSM）

RSSM 将隐状态 z_t 拆分为两部分：

确定性状态 h_t：由 GRU（Gated Recurrent Unit）根据上一步确定性状态、随机状态和动作递推得到，负责跨步骤传递长期信息。
随机状态 s_t：以 Gaussian 分布为先验，以当前确定性状态为条件独立采样，使模型能够表达对未来的不确定性。

观测模型（decoder）和奖励模型（reward model）均以 (h_t, s_t) 为输入进行预测。训练使用变分下界（ELBO），同时最大化图像重建对数似然和奖励预测准确性，并对 KL 散度施加正则化。

Latent Overshooting（隐空间多步预测目标）

标准 VAE 目标（ELBO）只对单步转移进行变分推断，导致模型仅在一步预测上做优化，而规划需要准确的多步预测。论文提出 latent overshooting：在所有预测距离 d = 1, 2, …, D 上都附加 KL 散度惩罚项，迫使先验和后验在多个时间步上保持一致：

Latent Overshooting 示意图 — **Figure 3（论文原图）**：三种变分目标对比。(a) 标准变分界（只有单步 KL）；(b) observation overshooting（对每个距离的预测都加重建损失，计算量极大）；(c) latent overshooting（本文）：只在隐空间计算多步 KL，避免了高开销的像素解码，但提供了更强的多步一致性监督信号。

Latent overshooting 的核心思路："If we could train our model to make perfect one-step predictions, it would also make perfect multi-step predictions, so this would not be a problem. However, when using a model with limited capacity and restricted distributional family, training the model only on one-step predictions until convergence does in general not coincide with the model that is best at multi-step predictions."

在线规划：CEM（Cross-Entropy Method）

测试时，agent 利用学习到的 RSSM 进行 MPC（Model Predictive Control）：在隐空间中以 CEM 采样并评估 H 步候选动作序列（默认 H=12，迭代 10 次，每次 1000 个候选），选取期望累积奖励最高的序列执行第一步动作，再重新规划。整个过程不需要任何策略网络或价值函数——模型是唯一"知识"来源。

03 实验（Experiments）

在 DeepMind Control Suite 的 6 个连续控制任务上，对比 A3C（模型无关、像素输入）、D4PG（模型无关、像素输入，proprioceptive 版本作为上界）、带真实动态的 CEM（oracle），以及纯随机随机策略。所有 pixel-based 方法使用相同 64×64 三阶段下采样图像。指标为最终性能的 median ± IQR（5 seeds × 10 trajectories）。

训练曲线对比 — **Figure 4（论文原图）**：六个任务上 PlaNet（RSSM）vs. 纯随机策略（Random collection）vs. A3C（100K episodes）vs. D4PG（1M episodes，proprioceptive，作为 oracle 上界）的训练曲线。横轴为收集的 episode 数，纵轴为 episode 奖励。PlaNet 在 Finger Spin、Cup Catch、Walker Walk 等任务上用远少于 D4PG 的样本超越或接近其性能；Cheetah Run 上 D4PG 占优。

Table 1 与模型设计消融 — **Table 1（论文原图）**：方法比较——模态（proprioceptive vs. pixels）、所需 episodes 数与最终性能（各任务 median reward，100 episodes 评估）。PlaNet（RSSM）在 pixels 模态下以 1,000 个 episodes 实现最优总分 862；D4PG 使用 proprioceptive 观测和 100,000 个 episodes 得分 961（作为 oracle 上界）；A3C 用 100,000 episodes 只达到 214。

方法	观测模态	Episodes	总 median 奖励
A3C (pixels)	pixels	100,000	214
D4PG (pixels)	pixels	100,000	462
D4PG (proprioceptive)	proprioceptive	100,000	961
PlaNet / RSSM（本文）	pixels	1,000	862
CEM + 真实动态（oracle）	state	—	941

**Figure 5（论文原图）**：PlaNet 与 model-free 算法（A3C、D4PG）的样本效率对比，图中展示了在相同 episode 预算下各方法的性能。PlaNet 使用仅约 2,000 个 episodes 便超越使用 100,000 个 episodes 的 A3C pixel 版本。在 Finger Spin 任务上，PlaNet 以 100K episodes 的表现超越 D4PG 约 20%（relative improvement）。

消融实验（Ablations）

论文通过控制变量验证了各设计选择的必要性：

RSSM vs. 纯确定性（GRU）vs. 纯随机（SSM）：在所有任务上 RSSM 均优于另外两种，说明确定性和随机分量缺一不可。纯随机 SSM 在 Cheetah Run 等接触动力学任务上表现最差。
Latent overshooting 的效果：加入多步 KL 目标后，多步预测准确性显著提升，规划性能随之改善，尤其在需要长视野的稀疏奖励任务上。
规划视野 H 与迭代次数：H=12、迭代 10 次在性能与计算开销之间取得较好平衡；过短的视野导致规划短视，过长则计算开销上升且预测误差累积。

04 局限性（Limitations）

Note：论文在第 7 节（Limitations and Future Work）中明确列出了以下局限，属于作者stated陈述；部分条目为从设计出发的inferred推断，已标注。

规划计算开销随视野增加（stated）

CEM 规划在每个环境步骤都需要在隐空间中评估大量候选序列（默认 1000 × 10 次迭代 × 12 步），随着规划视野 H 增加，计算量线性增长。论文指出"对于实际实时控制问题这仍是一个挑战"。

视觉复杂度与部分可观测性的局限（stated）

论文明确表示该方法"在视觉复杂度很高或者部分可观测性严重时可能面临困难"。实验中的 64×64 像素任务视觉相对简单；在更真实的图像域中模型容量可能成为瓶颈。

仅限连续动作空间与低维任务（inferred）

PlaNet 的 CEM 规划天然适配连续动作空间，对高维离散动作空间或复杂操控任务（如机械臂抓取）的扩展性尚未验证。实验中的六个任务动作维度均较低（1–6维）。

模型复合误差（compounding errors，inferred）

基于模型规划的固有问题：在分布外（out-of-distribution）的状态区域，learned dynamics 的预测误差会随规划步数累积，导致规划效果退化。论文通过缩短 MPC 重规划间隔来缓解，但未根本解决。