cs.RO · 2026

MemoryWAM

高效持久记忆的世界行动模型 (Efficient World Action Modeling with Persistent Memory)
Sizhe Yang · Juncheng Mu · Tianming Wei · Chenhao Lu · Xiaofan Li · Linning Xu · Zhengrong Xue · Zhecheng Yuan · Dahua Lin · Jiangmiao Pang · Huazhe Xu  |  香港中文大学 · 清华大学 · 浙江大学

机器人操作的长时序任务中,现有世界行动模型(WAM)面临记忆与效率的根本矛盾:滑动窗口方法推理高效但遗忘长程上下文,全历史 KV 缓存方法具备记忆能力却随序列增长导致延迟与显存急剧上升。MemoryWAM 提出混合记忆设计——近期帧、事件边界锚帧、以及压缩长程历史的 gist token——将推理时间与空间复杂度从 O(N) 降至 O(N/d),同时在仿真与真实机器人任务中超越强 VLA/WAM 基线。

arXiv 2026-06-18 cs.RO RMBench 评测 📄 arXiv:2606.20562 🌐 Project Page
world action model hybrid memory gist token non-Markovian 机器人操作 KV cache 长时序决策 diffusion transformer persistent memory RMBench

01 Motivation

真实世界中的机器人操作不仅需要理解当前观测,还需要记忆动态建模。现有 WAM 在高效推理(短窗口)和长历史保留(全 KV 缓存)之间存在不可调和的权衡,导致非 Markov 任务中两类方法均存在显著缺陷。

"Existing WAMs face a fundamental trade-off: methods with efficient inference typically condition only on a bounded window of recent observations and therefore struggle in non-Markovian environments, whereas methods that preserve long histories incur time and space costs that grow substantially with sequence length."
MemoryWAM overview — memory efficiency tradeoff
Figure 1 · 总览。滑动窗口方法(左)推理为 O(1),但丢失长程上下文;全 KV 缓存方法(中)保留完整历史但推理随轨迹长度 N 线性增长。MemoryWAM(下)引入 hybrid memory:近期帧(短期记忆)+ 锚帧(事件边界)+ gist token(长程摘要),复杂度从 O(N) 降至 O(N/d)。右侧散点图显示 MemoryWAM 在 RMBench 上达到最高成功率且推理延迟最低。
83.0%RMBench 平均成功率(Ours)
78.2%LingBot-VA(全历史 KV 缓存基线)
O(N/d)MemoryWAM 推理复杂度
10.4%π₀.₅(短窗口 VLA 基线)

02 Method

MemoryWAM 以 Mixture-of-Transformers (MoT) 架构为主干,将 video DiT(视觉动态建模)与 action DiT(动作预测)双路并行,并引入三层混合记忆机制,通过定制化注意力掩码实现高效持久上下文检索。

MemoryWAM architecture
Figure 2 · 系统架构。MemoryWAM 由 video DiT (Φ_v) 与 action DiT (Φ_a) 构成 MoT 架构。训练时 video DiT 通过视频预测提供稠密监督;推理时仅前向一次当前帧更新 KV 缓存,无需生成未来帧。持久记忆保留初始锚帧的完整 token 与最近帧,并将长程历史压缩为少量 gist token。

混合记忆(Hybrid Memory)三层设计

短期记忆:Sliding Window

保留最近 N 帧的完整视觉 token,为当前动作规划提供高保真短期上下文。计算量固定为 O(N)(N 为滑窗大小,而非轨迹长度)。

事件边界记忆:Anchor Frames

在任务起始等"事件边界"处保留完整视觉 token 作为锚帧,提供关键初始状态信息。灵感来源于认知心理学中事件边界对记忆的高度显著性。

长程记忆:Gist Tokens

对超出滑窗的远程帧,用少量(可学习的)gist token 对完整 token 序列进行压缩,将每帧 L 个 token 压缩到 L/d 个(d 为压缩比)。推理时仅保留 gist token 的 KV 缓存,丢弃原始帧缓存,将整体历史复杂度从 O(N) 降至 O(N/d)。

MemoryWAM attention mask
Figure 3 · 注意力掩码。以三帧历史、一帧锚帧、一帧近期帧为例:f 为干净视频帧,g 为 gist token,a 为待去噪动作 token。近期帧可全量关注所有历史,远程历史仅通过 gist token 被访问。推理时仅保留 g_i 的 KV 缓存,f_i 的 KV 缓存被驱逐,实现持久记忆与高效推理的统一。

训练目标

MemoryWAM 继承高效 WAM 的核心优势:训练时通过视频预测任务(预测未来帧 z̃_{t+1:t+k})提供稠密动态监督,推理时跳过视频生成,仅运行 action DiT 完成动作预测。动作 chunk a_{t:t+h-1} 由 action DiT 对带噪声的动作 token x_τ^a 去噪得到,条件为语言指令 l 和累积视频 KV 缓存 C^v_{≤t}。

03 Experiments

RMBench(长时序记忆依赖操作基准,9 项任务)和真实双臂机器人(ARX + RealSense D455)上评估,与 π₀.₅、FastWAM、LingBot-VA 对比,每项任务 100 次 rollout 统计成功率。

记忆机制效率对比(Figure 4)

Efficiency comparison of memory mechanisms
Figure 4 · 记忆机制对比。(a) 单次前向延迟随序列长度增长曲线;(b) GPU 显存占用曲线;(c) Press Button 任务成功率。Hybrid memory 在序列长度 1,600 帧时仍比 RNN/TTT-based 方案更高效,且成功率(87%)与 Full Attention 持平。Full Attention 延迟显著更高但成功率不更优。

RMBench 仿真实验(Table 1)

任务 π₀.₅ FastWAM LingBot-VA Ours
Observe and Pick Up9%0%13%27%
Rearrange Blocks13%0%100%100%
Put Back Block11%0%100%100%
Swap Blocks24%0%99%100%
Swap T15%7%88%94%
Battery Try16%20%41%41%
Blocks Ranking Try6%26%100%100%
Cover Blocks0%0%79%98%
Press Button0%0%84%87%
Average10.4%5.9%78.2%83.0%

短窗口方法(π₀.₅、FastWAM)在记忆依赖任务上大量失败(平均 <11%)。MemoryWAM 平均成功率比全历史 KV 缓存的 LingBot-VA 高 4.8 个百分点,且在每项任务上均达到领先或持平。

真实机器人实验(Table 2)

Real-world task illustration
Figure 5 · 真实世界任务示意。左:Shell Game——人手随机交换杯子后,机器人需识别藏有方块的杯子并抓取(需追踪遮挡物体)。右:Look and Press——机器人观察桌上两个数字,依次按对应次数的按钮,最后按下确认键(需计数工作记忆)。
任务π₀.₅LingBot-VAOurs
Shell Game5/2013/2018/20
Look and Press0/2014/2015/20

真实机器人上 MemoryWAM 两项任务均最优。值得注意的是,LingBot-VA 高推理延迟导致其在 Shell Game 中错过杯子交换时机而失败——印证了效率本身也是操作性能的组成部分。

消融实验(Table 3)

去除 gist token 导致最大性能下降,说明长程历史压缩是记忆依赖决策的核心。去除锚帧或滑窗均降低性能,证明三类记忆提供互补收益。Full Attention(保留所有历史)性能反而弱于混合记忆,说明"密集历史并非最优"——冗余信息增加检索难度。消融结论:"MemoryWAM's hybrid memory design is not merely an efficiency-oriented compromise, but an effective memory structure."

04 Limitations

Note: 本文无显式 Limitations 章节。以下局限性:前两点为论文结论/方法设计中直接推断(inferred from design),第三点基于实验规模。
压缩比 d 是固定超参数(inferred)

gist token 压缩比 d 在训练前固定,无法自适应任务难度或历史重要性动态调整。对于信息密度不均匀的轨迹,固定压缩可能导致部分关键帧被过度压缩或欠压缩。

锚帧选择依赖任务边界先验(inferred)

当前方案以任务初始帧作为锚帧("initial observations of a task"),需预先知道任务开始时刻。对于无明确起点或多阶段混合的连续操作场景,锚帧定义可能不够通用。

真实机器人实验规模有限(stated via experiment size)

真实机器人实验每任务仅 20 次 rollout,演示数据分别为 50(Shell Game)和 100(Look and Press)条。样本量相对较小,泛化性结论需更大规模验证。