MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

01 动机

机器人操作天然具有非马尔可夫性：早期动作决定后续状态，单帧观测往往不足以完成任务。然而，当前主流 VLA 模型均依赖当前帧，忽略了时序依赖，在需要历史记忆的任务（如顺序按按钮、记忆颜色后取物）上表现不佳。

"Robotic manipulation is inherently non-Markovian, and earlier actions influence later decisions, calling for temporal modeling."

朴素方案——直接拼接多帧——面临两大障碍：
（1）自注意力的二次复杂度严重限制了可用的时序上下文长度；
（2）多帧输入与模型在单帧机器人数据上预训练的分布不匹配。

MemoryVLA Motivation — **图 1.** （a）Push Buttons 任务中，按键前后外观几乎相同，仅凭当前帧无法判断是否已按下；（b）人类双记忆系统：工作记忆处理即时控制，海马体保存情节细节；（c）MemoryVLA 的感知-认知记忆库（PCMB）框架示意；（d）与 baseline 的性能对比。

71.9%SimplerEnv-Bridge 成功率
+14.6 pts over CogACT

83%真实长时程任务成功率
+26 pts over CogACT

96.5%LIBERO 整体成功率
+3.3 pts over CogACT

+3.6%推理延迟增量
0.194 s @ RTX 4090

02 方法

MemoryVLA 构建了一套"认知-记忆-动作"（Cognition-Memory-Action）流水线：7B 预训练 VLM 提取当前帧的感知与认知表征，PCMB 从历史中检索并融合相关记忆，扩散 Transformer（DiT）基于富含历史信息的表征预测未来 16 步动作序列。

MemoryVLA Overall Architecture — **图 2. 整体架构。** RGB 观测与语言指令经 7B Prismatic VLM 编码为感知 token（SE-bottleneck 压缩至 256 维）和认知 token（EOS 位置输出）；双流工作记忆作为查询，从 PCMB 检索历史信息；门控融合后更新记忆库；最后送入 DiT 生成动作序列。

Stage 1 · Vision-Language Cognition Module

系统采用基于 Open-X Embodiment 数据预训练的 7B Prismatic VLM。视觉编码器并联 DINOv2 和 SigLIP backbone，对当前第三视角 RGB 图像编码。感知压缩模块（SE-bottleneck）将视觉 token 压缩为紧凑的感知 token p ∈ ℝ^Np×dp（Np=256）。原始视觉 token 投影至语言嵌入空间后与分词后的指令拼接，送入 LLaMA-7B，"output at the end-of-sentence (EOS) position is taken as the cognitive token c ∈ ℝ^1×dc"，用于捕捉高层语义。

Stage 2 · Perceptual-Cognitive Memory Bank (PCMB)

Memory Module Details — **图 3. PCMB 三大机制。** （a）带时步位置编码的 cross-attention 检索；（b）门控融合：当前 token 与检索结果自适应加权；（c）语义合并：容量满时合并余弦相似度最高的相邻条目，而非 FIFO 丢弃。

PCMB 维护两条并行流：感知流存储低级视觉细节，认知流存储高级语义，每条最多保留 L 个条目。

Memory Retrieval：当前工作记忆 token 作为双查询，通过缩放点积注意力检索历史信息。每个记忆条目附加基于 sinusoidal embedding 的时步位置编码 TE(·)，使模型感知时序先后。
Memory Gate Fusion：检索到的嵌入通过可学习门控与当前表征融合：x̃ = g^x ⊙ H^x + (1−g^x) ⊙ x，σ 为 sigmoid，⊙ 为逐元素乘法。
Memory Consolidation：容量达到 L 时，在每条流内计算相邻条目的余弦相似度，合并相似度最高的一对（取均值），而非简单的先进先出（FIFO），保留最多样化的历史信息。

Stage 3 · Memory-Conditioned Action Expert

动作专家采用基于 DDIM 的扩散 Transformer（DiT），推理时执行 10 步去噪，生成未来 T=16 步的动作序列 {a₁, …, a₁₆}。在每个去噪步骤中，含噪动作 token 注入去噪时步的 sinusoidal 编码，并与富含记忆的认知表征拼接，实现历史条件下的精确动作预测。

03 实验

实验涵盖 4 个仿真基准（SimplerEnv-Bridge、SimplerEnv-Fractal、LIBERO、Mikasa-Robo）和 2 套真实机器人任务（Franka + WidowX，共 12 项），对比 CogACT、π₀、OpenVLA、Octo、TraceVLA、RoboVLMs 等多个强 baseline。

Experimental Setup — **图 4. 实验平台概览。** 覆盖 4 个仿真基准 + 3 种机器人平台、6 个真实世界基准、150+ 任务类型、500+ 任务变体。

主要定量结果

Benchmark	CogACT（prev. best）	MemoryVLA（ours）	Δ
SimplerEnv-Bridge（avg）	57.3%	71.9%	+14.6 pts
SimplerEnv-Fractal（avg）	68.1%	72.7%	+4.6 pts
LIBERO（avg 5 suites）	93.2%	96.5%	+3.3 pts
Mikasa-Robo（avg）	—	41.2%	大幅优于所有 baseline
Real-World 通用任务（avg 6 tasks）	76%	85%	+9 pts
Real-World 长时程任务（avg 6 tasks）	57%	83%	+26 pts

长时程任务中单任务最大提升：Seq. Push Buttons +43 pts over CogACT；Change Food +38 pts；Guess Where +32 pts。

Memory Retrieval Visualization — **图 10. 记忆检索可视化。** 真实世界"Change Food"任务和仿真"Shell Game Touch"任务中，注意力权重高亮了能消解当前决策歧义的关键历史帧——说明模型确实学到了有意义的时序检索，而非随机查找。

消融实验

以 SimplerEnv-Bridge 成功率为指标（括号内为与完整模型 71.9% 的对比）：

记忆流类型：仅认知流 63.5%（−8.4）；仅感知流 64.6%（−7.3）；双流完整 71.9%——两流互补，缺一不可。
记忆容量 L：L=4 → 67.7%；L=16 → 71.9%（最优）；L=64 → 67.7%——容量过大引入噪声。
检索位置编码：去掉时步 PE 后下降至 69.8%，说明时序位置感知有效。
融合方式：加法融合 67.7% vs. 门控融合 71.9%。
合并策略：FIFO 丢弃 66.7% vs. 语义合并 71.9%。

推理效率（RTX 4090）

延迟 0.194 s（较 baseline 增加 +3.6%）；吞吐 82.5 Hz；GPU 显存 16.6 GB（+0.8 GB）。计算开销极小，对实时部署友好。

鲁棒性与泛化

真实世界 OOD 评测（Pick Place Order + Clean Restaurant Table）中，在未见背景（92–100%）、干扰物（86–92%）、光照（94–96%）、未见物体/容器（89–100%）、遮挡（94–96%）等条件下均保持高成功率。

04 局限性

注：论文未设独立的 Limitations 章节。以下第 1 条为作者在结论部分明确指出的未来方向（stated），第 2–3 条为从设计与实验结果推断（inferred）。

未探索记忆反思与长期记忆（stated）

作者指出两个未来方向："(i) developing memory reflection, aligning long-term memory to the LLM input space to enable embedding-space chain-of-thought reasoning; and (ii) building lifelong memory through biologically inspired consolidation that distills frequently reused experiences into permanent representations."——当前 PCMB 仅在单次 episode 内维护记忆，无法跨 episode 积累经验。

相机视角泛化能力有限（inferred from ablations）

消融实验表明，在"未见相机视角"条件下仿真性能明显下降，说明感知 token 对视角变化仍较敏感，模型的视角不变性有待提升。

高度动态场景与实时交互任务（inferred from design）

PCMB 的语义合并策略以余弦相似度为准则，在场景变化极快或存在多个相似状态时可能合并不当；10 步 DDIM 去噪虽已较快（0.194 s），对毫秒级反应要求的任务仍有压力。