世界模型 · 视频生成 · CVPR 2025

WorldMem: Long-term Consistent World Simulation with Memory

基于记忆库的长程时空一致性世界模拟框架
Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan

WorldMem 提出一种轻量级记忆库机制,将历史帧的 latent token 连同 5D 姿态与时间戳一起存储,通过基于置信度的空间检索与状态感知 cross-attention,让视频扩散模型在生成长达数百帧的第一人称视角时仍能忠实重建先前观测的场景,从根本上解决上下文窗口外的时空不一致问题。

arXiv 2025-04 Minecraft · RealEstate10K Diffusion Transformer 📄 arXiv:2504.12369 PDF
world simulation memory bank long-term consistency video diffusion 状态感知注意力 Diffusion Transformer Plücker embedding 视频生成 3D spatial consistency 动态场景建模

01 动机

现有视频扩散模型受固定上下文窗口限制,在生成长序列时不得不丢弃先前帧。当智能体重返已探索区域时,模型无法重现之前的场景,导致严重的视觉不一致。如何在不依赖显式三维重建的前提下实现长程世界一致性,是世界模拟研究的核心挑战。

"Existing approaches either struggle to preserve 3D spatial consistency over time or lack flexibility in modeling dynamic environments."
teaser — long-term consistent world generation
图1 · Teaser:WorldMem 在生成超过上下文窗口的长序列时,能够忠实重建先前观测的场景(含动态变化,如植被生长),而基线方法(Diffusion Forcing)则产生明显漂移与不一致。
+6.66PSNR 提升(超窗口对比 Diffusion Forcing)
LPIPS 降低(0.4376 → 0.1429)
35.91rFID 下降(51.28 → 15.37)
~21 MB600 帧记忆库存储占用

02 方法

WorldMem 以 Conditional Diffusion Transformer(CDiT)与 Diffusion Forcing 为基础,在其上引入三个核心组件:记忆库(Memory Bank)置信度检索(Confidence-based Retrieval)状态感知记忆注意力(State-aware Memory Attention),共同实现对历史场景的高效感知与忠实重建。

WorldMem architecture
图2 · 架构总览:生成时,模型维护一个记忆库,存储历史帧的 latent token 及对应 5D 姿态与时间戳三元组 {(x_i, p_i, t_i)}。每步推理通过置信度检索选取 L_M 帧记忆,经状态感知 cross-attention 注入当前生成过程。

记忆库设计(Memory Bank)

记忆库以元组序列 {(𝐱ᵢᵐ, 𝐩ᵢ, tᵢ)} 的形式保存所有已生成帧的 latent token、5D 相机姿态(x, y, z, pitch, yaw)和时间戳。这种几何无关(geometry-free)表示无需维护显式三维结构,天然支持动态场景。存储 600 帧仅需约 21 MB,检索延迟在 1000 个候选帧时也仅为 0.16 秒。

基于置信度的检索(Confidence-based Retrieval)

检索算法综合三项打分维度为每个记忆单元计算置信度:

状态感知记忆注意力(State-aware Memory Attention)

与单纯视觉 token 注意力不同,WorldMem 将显式时空状态嵌入融入 cross-attention 的 Q/K 计算:

Cross-attention 公式为:CrossAttn(Q=p_q(X̃_q), K=p_k(X̃_k), V=p_v(X_k)),其中 Q/K 融合状态嵌入,V 保留纯视觉特征。

训练策略

记忆帧使用最低噪声等级 k_min,上下文帧则在 [k_min, k_max] 范围内采样;时序注意力掩码防止记忆单元互相影响,保持因果性。训练时采用渐进式距离采样(Progressive Sampling):从小范围(2m)逐渐扩展至大范围(8m),使模型学会处理大视角跨度的重访场景,相比固定 8m 采样 PSNR 提升 2.87(21.11 → 23.98)。

03 实验

在 MineDojo(Minecraft 虚拟环境,含平原/沙漠/热带草原等多样地形)和 RealEstate10K(真实室内场景)两个基准上评估。指标:PSNR(像素保真度)、LPIPS(感知相似度)、rFID(重建真实性)。对比基线:Full Sequence、Diffusion Forcing(DFoT)、CameraCtrl、ViewCrafter。

超上下文窗口一致性(Minecraft,生成 100 帧,记忆 600 帧)

方法PSNR ↑LPIPS ↓rFID ↓
Diffusion Forcing(基线)17.320.437651.28
WorldMem(本文)23.980.142915.37

上下文窗口内一致性(Minecraft,16 帧窗口)

方法PSNR ↑LPIPS ↓rFID ↓
Full Sequence20.140.069113.87
Diffusion Forcing24.110.009413.88
WorldMem(本文)25.980.007213.73

RealEstate10K(真实场景)

方法PSNR ↑LPIPS ↓rFID ↓
CameraCtrl
ViewCrafter
DFoT(基线)(较低)(较高)(较高)
WorldMem(本文)23.340.167243.14

注:论文中 RealEstate10K 基线完整数值请见原文 Table 2;此处引用 WorldMem 最终结果。

beyond context window comparison
图5 · 超窗口一致性对比:经过 600 帧记忆后再生成 100 帧。Diffusion Forcing(上行)在重访场景时产生严重漂移;WorldMem(下行)能准确重建先前观测的区域,与 ground truth 高度吻合。
qualitative results
图3 · 定性结果:上方展示与 ground truth 的对比,涵盖动态场景(植被生长、天气变化);下方展示交互式世界场景中对象的持久性与环境状态的动态演化。

消融实验

ablation PSNR over 300 frames
图7 · 长程 PSNR 消融:在 300 帧生成过程中,随着帧数增加,各消融变体的 PSNR 出现明显下降,而完整 WorldMem 保持最高且最稳定的一致性。
消融变体PSNR ↑LPIPS ↓rFID ↓
随机检索(Random Sampling)18.3247.35
置信度过滤(无相似度)23.1224.33
稀疏姿态 + 绝对编码20.670.1989
密集姿态 + 绝对编码23.630.1830
训练:小范围(2m)采样19.23
训练:大范围(8m)采样21.11
无时间戳条件23.170.1989
记忆长度 L_M=16(vs 8)23.14
WorldMem 完整模型23.980.142915.37

关键结论:相似度过滤对 rFID 改善最显著(24.33 → 15.37);相对状态编码优于绝对编码(LPIPS −0.040);渐进式距离采样带来最大 PSNR 增益;最优记忆长度为 8 帧(过长反而因冗余干扰性能)。

04 局限性

说明:以下局限性均为论文作者明确陈述(stated),非推断。
极端遮挡场景下检索可能不完整

当智能体被障碍物遮挡或处于视角盲区时,置信度检索算法无法保证召回所有必要的历史记忆,可能导致局部场景重建失败。

交互多样性与真实感有限

当前实验中的环境交互种类和物理真实感尚有局限,复杂动态场景(如流体、破坏性交互)的建模能力有待提升。

记忆库随序列线性增长

随着生成序列变长,记忆库存储量线性增加,对极长序列(远超本文实验的 600 帧)可能带来显著内存压力。作者指出扩展至真实世界场景及更丰富交互为未来方向。