MEM: Multi-Scale Embodied Memory for Vision Language Action Models

01 动机 Motivation

现有 VLA 模型（如 π₀.₆）在处理单步或短时操作任务时表现出色，但面对需要数分钟乃至十余分钟记忆的长时程任务时，性能急剧下降。它们缺乏一种既能捕捉细粒度局部操作动作、又能跟踪宏观任务状态的记忆机制。

"Effective robotic memory should operate across multiple levels of abstraction: a short-horizon memory to track recent observations at a fine-grained level, and a long-horizon memory to track the state of a task at a semantic level." — 论文核心论点

MEM system overview — **Figure 0：MEM 系统概览。**MEM 通过两个核心组件为 VLA 赋予长时程记忆：（1）高层策略通过更新语言记忆 mₜ 跟踪长时程语义事件（左侧，语言长时记忆）；（2）低层策略通过高效视频编码器处理短时观测记忆（右侧，视频短时记忆）。

15 min支持的最长任务记忆时长

54 s短时视频记忆覆盖的观测时长（推理时）

42Recipe Setup 训练菜谱数（5 道菜在未见场景评测）

4th每第 4 层插入一次 temporal attention

核心挑战在于：简单地将多帧图像拼接送入 VLA backbone 会导致推理延迟急剧增加，无法满足实时控制需求；而仅依赖文本记忆则无法捕捉精细的操作细节（如擦拭表面的时间长短、当前抓握状态等）。MEM 通过两级异构记忆的组合解决这一矛盾。

02 方法 Method

MEM 由两个互补的记忆模块组成：基于高效视频编码器的短时观测记忆（short-horizon video memory）处理近期细粒度观测；基于 LLM 压缩的长时语言记忆（long-horizon language memory）在更长的时间跨度上追踪任务语义状态。两者分别由低层策略和高层策略使用。

短时记忆：高效视频编码器（Short-Horizon Video Memory）

Video encoder architecture — **Figure 2：视频编码器架构。**在标准 ViT 的基础上，每隔第 4 层将空间 attention 替换为同时包含空间与时序上下文的 causal-temporal attention（黑色箭头），其余层保持双向空间 attention（白色箭头）。过去帧的 tokens 在 ViT 上层被丢弃，仅将当前帧的 token 表示传入 VLA backbone，从而压缩 token 数量。

视频编码器将标准 ViT 扩展为视频输入：在不引入任何新可学习参数的前提下（仅修改 attention 模式 + 固定正弦时序位置编码），每隔第 4 层插入一次 space-time separable attention。该设计将计算复杂度从朴素多帧拼接的 O(n²K²) 降至 O(Kn² + nK²)，其中 K 为帧数，n 为每帧 patch 数。

Pre-training：使用 6 帧观测序列（5 帧历史 + 当前帧），帧间隔 1 秒；在机器人遥操作数据、策略 rollout 数据、视频语言任务（视频描述等）的混合数据集上预训练。
Post-training：灵活扩展至最多 18 帧、覆盖 54 秒的观测记忆，无需重新训练 backbone 结构。
推理延迟控制：过去帧 tokens 在 ViT 上层被丢弃，只向 VLA backbone 传递当前帧的 patch 表示，保持实时推理吞吐。

Latency comparison — **Figure 1：推理延迟对比（π₀.₆，4路摄像头，单张 NVIDIA H100 GPU）。**朴素地增加帧数会使推理延迟急剧上升，超出实时控制阈值；MEM 的高效视频编码器在使用多帧历史时仍保持在可接受延迟范围内。

长时记忆：压缩语言记忆（Long-Horizon Language Memory）

高层策略维护一个自然语言记忆 mₜ，由一个 off-the-shelf 预训练 LLM 在每个子任务结束后负责更新与压缩。LLM 接收子任务指令序列及其成功/失败标记，输出精炼后的语言记忆，去除冗余细节，仅保留对未来决策有用的语义信息。

"Instead of remembering the precise attributes of all objects that were manipulated ('I put a light green bowl, a dark blue bowl and a bright yellow bowl into the top right cabinet'), it is often sufficient to just remember where the bowls were placed ('I placed three bowls in the top right cabinet')." — 论文对语言压缩机制的举例说明

这种压缩设计还解决了训练-推理分布偏移问题：训练时每个子任务指令通常只出现一次，而推理时策略可能反复失败并重试同一子任务，导致朴素拼接语言指令的方式分布失配。压缩记忆始终维持一个紧凑、语义丰富的历史摘要，避免了这一问题。

Long-horizon tasks — **Figure 3：评测任务示例。**MEM 在多个挑战性长时程灵巧操作任务上测试，包括 recipe setup（按菜谱摆放食材）、kitchen cleanup（厨房清理）、grilled cheese sandwich 制作等，任务时长最长可达 15 分钟。

03 实验 Experiments

实验在真实机器人平台上进行，评估 MEM 在长时程任务、in-context 适应、核心记忆能力及非记忆任务（基线对比）四个维度的表现。基线包括：π₀.₆（无记忆）、Pool Memory（历史帧池化）、Proprio Memory（本体感知记忆）以及 Naive Language Memory（未压缩的语言拼接）。

长时程任务表现（Figure 4）

Long-horizon task results — **Figure 4：长时程操作任务性能对比。**无记忆的 π₀.₆ 在 recipe setup 和 kitchen cleanup 上成功率极低（约 10-20%）。完整 MEM（短时视频记忆 + 长时语言记忆）显著优于所有消融变体，验证了两级记忆协同的必要性。朴素语言记忆（未压缩）因训练-推理分布偏移而性能受限。

消融分析揭示了两级记忆各自的贡献：

去除视频短时记忆：策略难以判断已擦拭表面的时长或盘子是否已拿起，导致性能下降。
去除语言长时记忆：策略无法跟踪任务进度（如哪些子任务已完成），成功率进一步下降。
朴素语言拼接（无压缩）：面临训练-推理分布偏移，性能介于有无记忆之间。

In-Context 操作策略适应（Figure 5）

In-context adaptation results — **Figure 5：In-context 操作策略适应。**MEM 策略能根据历史失败经验调整操作策略（如调整抓握高度或开门方向）。无记忆的策略则会反复执行相同的失败动作。

核心记忆能力基准（Figure 6）

Memory capabilities comparison — **Figure 6：核心记忆能力对比（局部可观测性处理、计数、视觉记忆）。**无记忆的 VLA 在所有记忆任务上均表现不佳（例如从 4 个抽屉中找到物体的成功率接近随机概率 25%）。仅 MEM 在全部核心记忆能力上均表现良好；Pool Memory 和 Proprio Memory 在部分能力上有一定效果，但无法全面覆盖。

非记忆任务上的基线对等（Figure 8）

MEM 在不需要记忆的灵巧操作任务（衬衫折叠、搭建积木、收拾餐桌等）上，与 state-of-the-art 无记忆 VLA π₀.₆ 表现持平，表明引入记忆模块不会损害模型的通用操作能力。

预训练的重要性（Figure 7）

在多样化机器人及非机器人视频数据上进行预训练对 MEM 的记忆利用能力至关重要：仅进行 post-training 而跳过预训练的 MEM，平均任务成功率约为 45%，而完整预训练后约为 75%，差距显著。这表明视频编码器需要从广泛的视频-语言数据中学习通用的时序表征。

04 局限性 Limitations

注：论文正文无独立的 Limitations 章节。以下各点部分来自论文结论段的展望性表述（标注为作者明确提及），其余为从方法设计中合理推断（标注为设计推断）。

单 Episode 内的记忆上限（作者明确提及）

论文结论明确指出："We believe that MEM is only the first step towards building robot policies that can effectively manage very long-horizon memory. Future work can explore how we can scale memory to last beyond the horizon of a single episode, to span weeks, months, or years of deployment." 目前 MEM 的记忆仅覆盖单次任务执行期间，无法跨 episode 积累经验。

语言记忆依赖高层策略的子任务分割（设计推断）

长时语言记忆的更新由高层策略触发，需要子任务级别的语言标注（成功/失败标记）。这对标注质量和高层策略的可靠性有一定依赖，若子任务识别出错，记忆更新可能引入噪声。

视频编码器预训练数据需求（设计推断）

实验表明，跳过预训练会导致约 30% 的性能下降。这意味着 MEM 的有效性高度依赖多样化机器人及非机器人视频数据的预训练，在数据受限场景下可能难以复现相同效果。

持续学习能力尚待探索（作者明确提及）

论文展望未来工作将探索"allow us to build robots that learn continually at deployment time"，表明 MEM 当前版本尚不支持部署时在线学习与记忆更新。