ICML 2019 · 基于模型的强化学习

Learning Latent Dynamics for Planning from Pixels

PlaNet:从像素出发,在隐空间中规划连续控制
Danijar Hafner · Timothy Lillicrap · Ian Fischer · Ruben Villegas · David Ha · Honglak Lee · James Davidson(Google Brain / DeepMind / University of Michigan)

PlaNet(Deep Planning Network)是一种纯基于模型的 agent,仅从像素观测中学习环境动态,并在学习到的隐状态空间内通过在线规划(CEM)选取动作。它无需价值网络或策略网络,却在多个连续控制基准上以比 model-free 方法少得多的环境交互次数达到相近或更好的最终性能。

ICML 2019 6 个 DeepMind Control Suite 任务 纯像素观测 64×64 📄 arXiv:1811.04551 💻 Code (GitHub)
model-based RL latent dynamics RSSM latent overshooting CEM planning pixel observations 连续控制 隐空间规划 变分推断 world model

01 动机(Motivation)

强化学习在控制任务上取得了令人瞩目的成果,但绝大多数成功案例都依赖 model-free 方法——需要与环境进行数以百万计的交互。当传感器只能提供高维图像时,样本效率问题更为严峻。利用学习到的动态模型(dynamics model)进行规划,理论上可以大幅减少所需交互,但长期以来难以在复杂的图像域中可靠地实现。

"Planning using learned models offers several benefits over model-free reinforcement learning. First, model-based planning can be more data efficient because it leverages a richer training signal and does not rely on propagating rewards through Bellman backups."
六种连续控制任务示例
Figure 1(论文原图):PlaNet 所测试的六种 DeepMind Control Suite 任务——Cartpole Swingup、Reacher Easy、Cheetah Run、Finger Spin、Cup Catch、Walker Walk。图像分辨率降采样至 64×64 像素后作为唯一观测,不提供物理状态。Cartpole/Finger Spin 仅有稀疏奖励;Cheetah/Walker 存在接触动力学。
6连续控制任务(DeepMind Control Suite)
50×比 D4PG 少的样本(Finger Spin 任务,100K episodes)
64×64像素输入分辨率(唯一观测)
1 GPUNvidia V100,10–20 小时训练

02 方法(Method)

PlaNet 的核心是 Recurrent State Space Model(RSSM)——一个同时包含确定性(deterministic)和随机性(stochastic)转移分量的隐状态空间模型。通过变分自编码器(VAE)框架从像素中学习该模型,再利用 Cross-Entropy Method(CEM)在隐空间中规划动作序列,无需任何策略网络。

RSSM 模型架构对比
Figure 2(论文原图):三种隐状态空间模型对比。(a) 纯确定性 RNN:转移完全确定,难以捕捉多模态未来;(b) 纯随机状态空间模型(SSM):每步独立采样随机状态,信息传播受限;(c) RSSM(本文):将隐状态分为确定性部分 ht(由 GRU 维护)和随机部分 st,二者共同决定观测和奖励预测。这种设计使模型既能记忆长程历史,又能表示不确定性。

Recurrent State Space Model(RSSM)

RSSM 将隐状态 zt 拆分为两部分:

观测模型(decoder)和奖励模型(reward model)均以 (ht, st) 为输入进行预测。训练使用变分下界(ELBO),同时最大化图像重建对数似然和奖励预测准确性,并对 KL 散度施加正则化。

Latent Overshooting(隐空间多步预测目标)

标准 VAE 目标(ELBO)只对单步转移进行变分推断,导致模型仅在一步预测上做优化,而规划需要准确的多步预测。论文提出 latent overshooting:在所有预测距离 d = 1, 2, …, D 上都附加 KL 散度惩罚项,迫使先验和后验在多个时间步上保持一致:

Latent Overshooting 示意图
Figure 3(论文原图):三种变分目标对比。(a) 标准变分界(只有单步 KL);(b) observation overshooting(对每个距离的预测都加重建损失,计算量极大);(c) latent overshooting(本文):只在隐空间计算多步 KL,避免了高开销的像素解码,但提供了更强的多步一致性监督信号。

Latent overshooting 的核心思路:"If we could train our model to make perfect one-step predictions, it would also make perfect multi-step predictions, so this would not be a problem. However, when using a model with limited capacity and restricted distributional family, training the model only on one-step predictions until convergence does in general not coincide with the model that is best at multi-step predictions."

在线规划:CEM(Cross-Entropy Method)

测试时,agent 利用学习到的 RSSM 进行 MPC(Model Predictive Control):在隐空间中以 CEM 采样并评估 H 步候选动作序列(默认 H=12,迭代 10 次,每次 1000 个候选),选取期望累积奖励最高的序列执行第一步动作,再重新规划。整个过程不需要任何策略网络或价值函数——模型是唯一"知识"来源。

03 实验(Experiments)

在 DeepMind Control Suite 的 6 个连续控制任务上,对比 A3C(模型无关、像素输入)、D4PG(模型无关、像素输入,proprioceptive 版本作为上界)、带真实动态的 CEM(oracle),以及纯随机随机策略。所有 pixel-based 方法使用相同 64×64 三阶段下采样图像。指标为最终性能的 median ± IQR(5 seeds × 10 trajectories)。

训练曲线对比
Figure 4(论文原图):六个任务上 PlaNet(RSSM)vs. 纯随机策略(Random collection)vs. A3C(100K episodes)vs. D4PG(1M episodes,proprioceptive,作为 oracle 上界)的训练曲线。横轴为收集的 episode 数,纵轴为 episode 奖励。PlaNet 在 Finger Spin、Cup Catch、Walker Walk 等任务上用远少于 D4PG 的样本超越或接近其性能;Cheetah Run 上 D4PG 占优。
Table 1 与模型设计消融
Table 1(论文原图):方法比较——模态(proprioceptive vs. pixels)、所需 episodes 数与最终性能(各任务 median reward,100 episodes 评估)。PlaNet(RSSM)在 pixels 模态下以 1,000 个 episodes 实现最优总分 862;D4PG 使用 proprioceptive 观测和 100,000 个 episodes 得分 961(作为 oracle 上界);A3C 用 100,000 episodes 只达到 214。
方法观测模态Episodes总 median 奖励
A3C (pixels)pixels100,000214
D4PG (pixels)pixels100,000462
D4PG (proprioceptive)proprioceptive100,000961
PlaNet / RSSM(本文)pixels1,000862
CEM + 真实动态(oracle)state941
样本效率对比
Figure 5(论文原图):PlaNet 与 model-free 算法(A3C、D4PG)的样本效率对比,图中展示了在相同 episode 预算下各方法的性能。PlaNet 使用仅约 2,000 个 episodes 便超越使用 100,000 个 episodes 的 A3C pixel 版本。在 Finger Spin 任务上,PlaNet 以 100K episodes 的表现超越 D4PG 约 20%(relative improvement)。

消融实验(Ablations)

论文通过控制变量验证了各设计选择的必要性:

04 局限性(Limitations)

Note:论文在第 7 节(Limitations and Future Work)中明确列出了以下局限,属于作者stated陈述;部分条目为从设计出发的inferred推断,已标注。
规划计算开销随视野增加(stated)

CEM 规划在每个环境步骤都需要在隐空间中评估大量候选序列(默认 1000 × 10 次迭代 × 12 步),随着规划视野 H 增加,计算量线性增长。论文指出"对于实际实时控制问题这仍是一个挑战"。

视觉复杂度与部分可观测性的局限(stated)

论文明确表示该方法"在视觉复杂度很高或者部分可观测性严重时可能面临困难"。实验中的 64×64 像素任务视觉相对简单;在更真实的图像域中模型容量可能成为瓶颈。

仅限连续动作空间与低维任务(inferred)

PlaNet 的 CEM 规划天然适配连续动作空间,对高维离散动作空间或复杂操控任务(如机械臂抓取)的扩展性尚未验证。实验中的六个任务动作维度均较低(1–6维)。

模型复合误差(compounding errors,inferred)

基于模型规划的固有问题:在分布外(out-of-distribution)的状态区域,learned dynamics 的预测误差会随规划步数累积,导致规划效果退化。论文通过缩短 MPC 重规划间隔来缓解,但未根本解决。