MemoryWAM: 高效持久记忆的世界行动模型

01 Motivation

真实世界中的机器人操作不仅需要理解当前观测，还需要记忆与动态建模。现有 WAM 在高效推理（短窗口）和长历史保留（全 KV 缓存）之间存在不可调和的权衡，导致非 Markov 任务中两类方法均存在显著缺陷。

"Existing WAMs face a fundamental trade-off: methods with efficient inference typically condition only on a bounded window of recent observations and therefore struggle in non-Markovian environments, whereas methods that preserve long histories incur time and space costs that grow substantially with sequence length."

MemoryWAM overview — memory efficiency tradeoff — **Figure 1 · 总览。**滑动窗口方法（左）推理为 O(1)，但丢失长程上下文；全 KV 缓存方法（中）保留完整历史但推理随轨迹长度 N 线性增长。MemoryWAM（下）引入 hybrid memory：近期帧（短期记忆）+ 锚帧（事件边界）+ gist token（长程摘要），复杂度从 O(N) 降至 O(N/d)。右侧散点图显示 MemoryWAM 在 RMBench 上达到最高成功率且推理延迟最低。

83.0%RMBench 平均成功率（Ours）

78.2%LingBot-VA（全历史 KV 缓存基线）

O(N/d)MemoryWAM 推理复杂度

10.4%π₀.₅（短窗口 VLA 基线）

02 Method

MemoryWAM 以 Mixture-of-Transformers (MoT) 架构为主干，将 video DiT（视觉动态建模）与 action DiT（动作预测）双路并行，并引入三层混合记忆机制，通过定制化注意力掩码实现高效持久上下文检索。

MemoryWAM architecture — **Figure 2 · 系统架构。**MemoryWAM 由 video DiT (Φ_v) 与 action DiT (Φ_a) 构成 MoT 架构。训练时 video DiT 通过视频预测提供稠密监督；推理时仅前向一次当前帧更新 KV 缓存，无需生成未来帧。持久记忆保留初始锚帧的完整 token 与最近帧，并将长程历史压缩为少量 gist token。

混合记忆（Hybrid Memory）三层设计

短期记忆：Sliding Window

保留最近 N 帧的完整视觉 token，为当前动作规划提供高保真短期上下文。计算量固定为 O(N)（N 为滑窗大小，而非轨迹长度）。

事件边界记忆：Anchor Frames

在任务起始等"事件边界"处保留完整视觉 token 作为锚帧，提供关键初始状态信息。灵感来源于认知心理学中事件边界对记忆的高度显著性。

长程记忆：Gist Tokens

对超出滑窗的远程帧，用少量（可学习的）gist token 对完整 token 序列进行压缩，将每帧 L 个 token 压缩到 L/d 个（d 为压缩比）。推理时仅保留 gist token 的 KV 缓存，丢弃原始帧缓存，将整体历史复杂度从 O(N) 降至 O(N/d)。

MemoryWAM attention mask — **Figure 3 · 注意力掩码。**以三帧历史、一帧锚帧、一帧近期帧为例：f 为干净视频帧，g 为 gist token，a 为待去噪动作 token。近期帧可全量关注所有历史，远程历史仅通过 gist token 被访问。推理时仅保留 g_i 的 KV 缓存，f_i 的 KV 缓存被驱逐，实现持久记忆与高效推理的统一。

训练目标

MemoryWAM 继承高效 WAM 的核心优势：训练时通过视频预测任务（预测未来帧 z̃_{t+1:t+k}）提供稠密动态监督，推理时跳过视频生成，仅运行 action DiT 完成动作预测。动作 chunk a_{t:t+h-1} 由 action DiT 对带噪声的动作 token x_τ^a 去噪得到，条件为语言指令 l 和累积视频 KV 缓存 C^v_{≤t}。

03 Experiments

在 RMBench（长时序记忆依赖操作基准，9 项任务）和真实双臂机器人（ARX + RealSense D455）上评估，与 π₀.₅、FastWAM、LingBot-VA 对比，每项任务 100 次 rollout 统计成功率。

记忆机制效率对比（Figure 4）

Efficiency comparison of memory mechanisms — **Figure 4 · 记忆机制对比。**(a) 单次前向延迟随序列长度增长曲线；(b) GPU 显存占用曲线；(c) Press Button 任务成功率。Hybrid memory 在序列长度 1,600 帧时仍比 RNN/TTT-based 方案更高效，且成功率（87%）与 Full Attention 持平。Full Attention 延迟显著更高但成功率不更优。

RMBench 仿真实验（Table 1）

任务	π₀.₅	FastWAM	LingBot-VA	Ours
Observe and Pick Up	9%	0%	13%	27%
Rearrange Blocks	13%	0%	100%	100%
Put Back Block	11%	0%	100%	100%
Swap Blocks	24%	0%	99%	100%
Swap T	15%	7%	88%	94%
Battery Try	16%	20%	41%	41%
Blocks Ranking Try	6%	26%	100%	100%
Cover Blocks	0%	0%	79%	98%
Press Button	0%	0%	84%	87%
Average	10.4%	5.9%	78.2%	83.0%

短窗口方法（π₀.₅、FastWAM）在记忆依赖任务上大量失败（平均 <11%）。MemoryWAM 平均成功率比全历史 KV 缓存的 LingBot-VA 高 4.8 个百分点，且在每项任务上均达到领先或持平。

真实机器人实验（Table 2）

Real-world task illustration — **Figure 5 · 真实世界任务示意。**左：Shell Game——人手随机交换杯子后，机器人需识别藏有方块的杯子并抓取（需追踪遮挡物体）。右：Look and Press——机器人观察桌上两个数字，依次按对应次数的按钮，最后按下确认键（需计数工作记忆）。

任务	π₀.₅	LingBot-VA	Ours
Shell Game	5/20	13/20	18/20
Look and Press	0/20	14/20	15/20

真实机器人上 MemoryWAM 两项任务均最优。值得注意的是，LingBot-VA 高推理延迟导致其在 Shell Game 中错过杯子交换时机而失败——印证了效率本身也是操作性能的组成部分。

消融实验（Table 3）

去除 gist token 导致最大性能下降，说明长程历史压缩是记忆依赖决策的核心。去除锚帧或滑窗均降低性能，证明三类记忆提供互补收益。Full Attention（保留所有历史）性能反而弱于混合记忆，说明"密集历史并非最优"——冗余信息增加检索难度。消融结论："MemoryWAM's hybrid memory design is not merely an efficiency-oriented compromise, but an effective memory structure."

04 Limitations

Note: 本文无显式 Limitations 章节。以下局限性：前两点为论文结论/方法设计中直接推断（inferred from design），第三点基于实验规模。

压缩比 d 是固定超参数（inferred）

gist token 压缩比 d 在训练前固定，无法自适应任务难度或历史重要性动态调整。对于信息密度不均匀的轨迹，固定压缩可能导致部分关键帧被过度压缩或欠压缩。

锚帧选择依赖任务边界先验（inferred）

当前方案以任务初始帧作为锚帧（"initial observations of a task"），需预先知道任务开始时刻。对于无明确起点或多阶段混合的连续操作场景，锚帧定义可能不够通用。

真实机器人实验规模有限（stated via experiment size）

真实机器人实验每任务仅 20 次 rollout，演示数据分别为 50（Shell Game）和 100（Look and Press）条。样本量相对较小，泛化性结论需更大规模验证。