WorldMem: Long-term Consistent World Simulation with Memory

01 动机

现有视频扩散模型受固定上下文窗口限制，在生成长序列时不得不丢弃先前帧。当智能体重返已探索区域时，模型无法重现之前的场景，导致严重的视觉不一致。如何在不依赖显式三维重建的前提下实现长程世界一致性，是世界模拟研究的核心挑战。

"Existing approaches either struggle to preserve 3D spatial consistency over time or lack flexibility in modeling dynamic environments."

teaser — long-term consistent world generation — **图1 · Teaser：**WorldMem 在生成超过上下文窗口的长序列时，能够忠实重建先前观测的场景（含动态变化，如植被生长），而基线方法（Diffusion Forcing）则产生明显漂移与不一致。

+6.66PSNR 提升（超窗口对比 Diffusion Forcing）

3×LPIPS 降低（0.4376 → 0.1429）

35.91rFID 下降（51.28 → 15.37）

~21 MB600 帧记忆库存储占用

02 方法

WorldMem 以 Conditional Diffusion Transformer（CDiT）与 Diffusion Forcing 为基础，在其上引入三个核心组件：记忆库（Memory Bank）、置信度检索（Confidence-based Retrieval）和状态感知记忆注意力（State-aware Memory Attention），共同实现对历史场景的高效感知与忠实重建。

WorldMem architecture — **图2 · 架构总览：**生成时，模型维护一个记忆库，存储历史帧的 latent token 及对应 5D 姿态与时间戳三元组 {(x_i, p_i, t_i)}。每步推理通过置信度检索选取 L_M 帧记忆，经状态感知 cross-attention 注入当前生成过程。

记忆库设计（Memory Bank）

记忆库以元组序列 {(𝐱ᵢᵐ, 𝐩ᵢ, tᵢ)} 的形式保存所有已生成帧的 latent token、5D 相机姿态（x, y, z, pitch, yaw）和时间戳。这种几何无关（geometry-free）表示无需维护显式三维结构，天然支持动态场景。存储 600 帧仅需约 21 MB，检索延迟在 1000 个候选帧时也仅为 0.16 秒。

基于置信度的检索（Confidence-based Retrieval）

检索算法综合三项打分维度为每个记忆单元计算置信度：

FOV 重叠率：通过 Monte Carlo 采样估算当前视角与历史帧视野的空间交叠，优先选取"能看到当前场景"的历史帧；
时间临近度权重：近期帧与当前生成更相关；
相似度过滤（Similarity Filtering）：剔除冗余帧，确保 L_M 帧记忆覆盖多样视角。消融实验中加入相似度过滤后 rFID 从 24.33 降至 15.37。

状态感知记忆注意力（State-aware Memory Attention）

与单纯视觉 token 注意力不同，WorldMem 将显式时空状态嵌入融入 cross-attention 的 Q/K 计算：

Plücker embedding：对相机姿态进行空间编码，提供每帧的射线级别位置感知；
时间戳 sinusoidal embedding：允许模型区分同一位置在不同时刻的状态（如白天/夜晚、植被生长）；
相对状态表达：将当前帧设为零参考，所有历史帧姿态转换为相对坐标，提升泛化性（PSNR: 23.63 → 23.98, LPIPS: 0.1830 → 0.1429）。

Cross-attention 公式为：CrossAttn(Q=p_q(X̃_q), K=p_k(X̃_k), V=p_v(X_k))，其中 Q/K 融合状态嵌入，V 保留纯视觉特征。

训练策略

记忆帧使用最低噪声等级 k_min，上下文帧则在 [k_min, k_max] 范围内采样；时序注意力掩码防止记忆单元互相影响，保持因果性。训练时采用渐进式距离采样（Progressive Sampling）：从小范围（2m）逐渐扩展至大范围（8m），使模型学会处理大视角跨度的重访场景，相比固定 8m 采样 PSNR 提升 2.87（21.11 → 23.98）。

03 实验

在 MineDojo（Minecraft 虚拟环境，含平原/沙漠/热带草原等多样地形）和 RealEstate10K（真实室内场景）两个基准上评估。指标：PSNR（像素保真度）、LPIPS（感知相似度）、rFID（重建真实性）。对比基线：Full Sequence、Diffusion Forcing（DFoT）、CameraCtrl、ViewCrafter。

超上下文窗口一致性（Minecraft，生成 100 帧，记忆 600 帧）

方法	PSNR ↑	LPIPS ↓	rFID ↓
Diffusion Forcing（基线）	17.32	0.4376	51.28
WorldMem（本文）	23.98	0.1429	15.37

上下文窗口内一致性（Minecraft，16 帧窗口）

方法	PSNR ↑	LPIPS ↓	rFID ↓
Full Sequence	20.14	0.0691	13.87
Diffusion Forcing	24.11	0.0094	13.88
WorldMem（本文）	25.98	0.0072	13.73

RealEstate10K（真实场景）

方法	PSNR ↑	LPIPS ↓	rFID ↓
CameraCtrl	—	—	—
ViewCrafter	—	—	—
DFoT（基线）	（较低）	（较高）	（较高）
WorldMem（本文）	23.34	0.1672	43.14

注：论文中 RealEstate10K 基线完整数值请见原文 Table 2；此处引用 WorldMem 最终结果。

beyond context window comparison — **图5 · 超窗口一致性对比：**经过 600 帧记忆后再生成 100 帧。Diffusion Forcing（上行）在重访场景时产生严重漂移；WorldMem（下行）能准确重建先前观测的区域，与 ground truth 高度吻合。

qualitative results — **图3 · 定性结果：**上方展示与 ground truth 的对比，涵盖动态场景（植被生长、天气变化）；下方展示交互式世界场景中对象的持久性与环境状态的动态演化。

消融实验

ablation PSNR over 300 frames — **图7 · 长程 PSNR 消融：**在 300 帧生成过程中，随着帧数增加，各消融变体的 PSNR 出现明显下降，而完整 WorldMem 保持最高且最稳定的一致性。

消融变体	PSNR ↑	LPIPS ↓	rFID ↓
随机检索（Random Sampling）	18.32	—	47.35
置信度过滤（无相似度）	23.12	—	24.33
稀疏姿态 + 绝对编码	20.67	0.1989	—
密集姿态 + 绝对编码	23.63	0.1830	—
训练：小范围（2m）采样	19.23	—	—
训练：大范围（8m）采样	21.11	—	—
无时间戳条件	23.17	0.1989	—
记忆长度 L_M=16（vs 8）	23.14	—	—
WorldMem 完整模型	23.98	0.1429	15.37

关键结论：相似度过滤对 rFID 改善最显著（24.33 → 15.37）；相对状态编码优于绝对编码（LPIPS −0.040）；渐进式距离采样带来最大 PSNR 增益；最优记忆长度为 8 帧（过长反而因冗余干扰性能）。

04 局限性

说明：以下局限性均为论文作者明确陈述（stated），非推断。

极端遮挡场景下检索可能不完整

当智能体被障碍物遮挡或处于视角盲区时，置信度检索算法无法保证召回所有必要的历史记忆，可能导致局部场景重建失败。

交互多样性与真实感有限

当前实验中的环境交互种类和物理真实感尚有局限，复杂动态场景（如流体、破坏性交互）的建模能力有待提升。

记忆库随序列线性增长

随着生成序列变长，记忆库存储量线性增加，对极长序列（远超本文实验的 600 帧）可能带来显著内存压力。作者指出扩展至真实世界场景及更丰富交互为未来方向。