RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

01 动机 / Motivation

现有机器人操作基准大多关注单步或短序列动作，对跨时间步记忆能力的评估严重不足。当物体被遮挡、状态发生改变、或任务依赖此前操作结果时，reactive 策略（仅依赖当前观测）将系统性失败——而这恰恰是真实操作场景中的常态。

"Existing robotic memory benchmarks suffer from...lack of multimodal annotations...limited task coverage...restricted to simulation."

**Figure 1.** RoboMemArena 四大任务类别可视化。每行依次展示任务指令、子任务分解与执行轨迹：Multi-Object Counting（计数）、Occlusion（遮挡）、Sequence（序列）、Transferring（转移）。每类任务都要求机器人在长时间跨度内维护并利用记忆状态。

26仿真任务

1000+平均轨迹步数

68.9%子任务依赖记忆

8领先于所有对比基准测试的评估维度

RoboMemArena 统计摘要 — **Figure 2.** RoboMemArena 基准统计。(a) 平均轨迹长度对比先前基准；(b) 任务构成（4 大类分布）；(c) history-dependent subtask ratio——凸显本基准长时域特性与记忆依赖子任务的高占比。

与已有基准的对比

论文在 14 个已有机器人基准上做了系统对比，RoboMemArena 是唯一同时满足以下全部 8 项标准的基准：长时域（>1000 步平均）、自动指令生成、原子子目标、可扩展生成、自主抓取（AnyGrasp）、状态 oracle、原生 keyframe、真实世界评估。

02 方法 / Method

本文贡献两部分：(1) RoboMemArena 基准的数据生成 pipeline，利用 VLM 驱动任务分解与 AnyGrasp 自主轨迹生成；(2) 用于基准测试的双系统 VLA 模型 PrediMem，结合分级记忆与 predictive coding 机制。

基准生成 Pipeline（三阶段）

Stage 1: VLM 驱动任务分解

利用 VLM 对每个任务提出有序的可执行子任务序列，自动生成结构化指令标注。

Stage 2: AnyGrasp 自主轨迹生成

每个子任务由 AnyGrasp 自主执行，无需人工干预，生成 2,600 条长时域视觉轨迹 + 15,100 条 keyframe 对齐短片段。

Stage 3: 多条件 Keyframe 提取

基于两类准则提取 keyframe：物理交互锚点（gripper 状态转变）与运动学拐点（速度极小值、方向变化）。

评估指标

TSR（Task Success Rate）：所有谓词均满足才算成功。CSR（Cumulative Success Rate）：衡量每项任务通过的 verification stage 比例，量化任务进展。每任务 3–9 个 stage，多数超过 5 个。

PrediMem：双系统 VLA

PrediMem pipeline 架构图 — **Figure 3.** PrediMem pipeline。系统由两个异步耦合组件构成：S1（低层 action policy，执行当前子任务）与 S2（高层规划器，预测 keyframe 并调度下一子任务）。Memory bank 含 recent buffer（5 帧）与不设上限的 keyframe buffer。

S2 高层规划器

基于 Qwen3-VL-8B 的高层 VLM 规划器，管理 memory bank（recent buffer + keyframe buffer），负责预测子任务与 keyframe 决策。运行频率约 1.06 Hz，p50 延迟 0.939 秒。

S1 低层执行器

以子任务条件生成动作 chunk 的低层 VLA policy，运行频率约 3.40 Hz，每次 S2 更新平均覆盖约 2.92 个 chunk，实现异步流水线。

Predictive Coding Head

仅在训练阶段使用的辅助损失，提升模型对状态转变的敏感度。损失函数：

ℒ_Pre = MSE(Ẑ_t+1, sg(Z_t+1)) + (1 − cos(Ẑ_t+1, sg(Z_t+1)))

最优损失权重为 0.1（在 0.0–1.0 消融实验中表现最佳）。Vision tower 冻结，其余模块全量微调，训练 2 个 epoch，使用 4×H100 GPU，学习率 1×10⁻⁵。

03 实验 / Experiments

在 RoboMemArena 的 26 项仿真任务与 5 项真实世界任务上评估 PrediMem，与 π₀.₅、HiF-VLA、MemoryVLA、MemER 以及闭源大模型（Qwen3-VL、GPT）对比。

主要仿真结果（Table 2）

方法	Transferring TSR / CSR	Occlusion TSR / CSR	Counting TSR / CSR	Sequence TSR / CSR	Avg TSR / CSR
π₀.₅（reactive baseline）	20.0 / 42.8	12.7 / 17.2	14.3 / 50.9	60.0 / 71.6	21.5 / 38.7
HiF-VLA	17.5 / 38.9	12.7 / 27.1	8.6 / 45.9	42.5 / 70.2	16.9 / 39.8
MemoryVLA	15.0 / 37.2	7.3 / 13.1	14.3 / 55.1	37.5 / 65.2	15.0 / 35.3
MemER	20.0 / 36.1	16.4 / 33.2	27.1 / 65.1	65.0 / 79.1	27.3 / 49.1
PrediMem（本文）	22.5 / 45.2	27.3 / 38.4	45.7 / 69.3	72.5 / 89.5	38.5 / 55.2
Ground Truth Oracle	上界参考				46.1 / 64.8

闭源基线：Qwen3-VL 冻结 6.0% TSR / 26.2% CSR；GPT-5.4 8.7% TSR / 30.5% CSR——"Closed-source agents transfer poorly to robotic memory-intensive tasks"。

真实世界结果（Table 4）

方法	Pour×2	Brush	Transfer	Shell Game	IHMB	Avg
π₀.₅	20%	10%	60%	10%	0%	20%
MemER	30%	50%	80%	40%	0%	40%
PrediMem	60%	60%	80%	50%	10%	52%

IHMB（Imitate Human to Make Breakfast）是时长约 3 分钟的最长任务，仅 PrediMem 成功完成。相比 reactive baseline，PrediMem 平均提升真实世界性能 32 个百分点。

**Figure S2.** 真实世界任务演示。展示双臂机器人平台上各任务的代表性执行帧，涵盖 Pour Bottle × 2、Brush Plates with Swap、Transfer Objects、Shell Game 与 Imitate Human to Make Breakfast 五类场景。

消融实验

**Figure 4.** 记忆行为分析。(a) recent-buffer 大小对平均 CSR 的敏感性（3–5 帧最优）；(b) keyframe-bank 容量影响（不设上限性能最佳）；(c) t-SNE 可视化显示 predictive coding 产生更紧凑、更具判别性的 keyframe cluster。

消融变体	TSR (%)	CSR (%)
w/o Predictive Coding	32.3	49.0
w/o Keyframe Bank	17.7	41.6
PrediMem（完整）	38.5	55.2

Predictive coding 单独贡献约 +6.2% TSR；keyframe bank 对记忆依赖任务（尤其是 Occlusion 类）至关重要，移除后 TSR 下降 20.8 个百分点。

规模扩展实验

S2 模型规模	TSR (%)	CSR (%)
Qwen3-1.7B	19.9	41.4
Qwen3-4B	31.9	51.7
Qwen3-8B（完整）	38.5	55.2

S2 模型规模从 1.7B 扩展至 8B，性能在所有任务类别上一致提升，符合 scaling law 预期。

04 局限性 / Limitations

Note: 以下局限性部分来自论文明确陈述（stated），部分由设计本身推断（inferred）。

闭源 VLM 在机器人任务上的迁移鸿沟（stated）

Qwen3-VL 冻结（6.0% TSR）与 GPT-5.4（8.7% TSR）等闭源大模型尽管具备强大的通用能力，但在记忆密集型机器人操作任务上表现远不如开源微调方案，说明通用视觉-语言能力与具身记忆能力之间存在显著差距。

真实世界评估规模有限（stated）

真实世界评估仅覆盖 5 项任务，使用双臂平台，尚无法充分代表真实部署场景的多样性。IHMB 任务成功率仅 10%，说明长时域真实操作仍是开放挑战。

专注桌面操作，泛化性待验证（stated + inferred）

当前基准与模型均聚焦于 tabletop manipulation，尚未验证能否泛化至移动操作（mobile manipulation）或更复杂的开放世界场景。此外，数据集由仿真自动生成，仿真到现实的 visual gap 可能影响策略在真实世界的泛化。