Chameleon: 面向视觉运动操作的控制索引前瞻性记忆

01 动机

现有的记忆增强策略依赖语义相似度或视觉相似度检索历史轨迹，往往召回貌似合理但与当前决策无关的轨迹。这一根本缺陷导致机器人在视觉别名（visual aliasing）严重的任务中频繁犯错——例如"杯子游戏"（shell game）中多个杯子外观相同，历史上哪个杯子藏着球才是关键。

"Memory must be policy-facing—designed to make the right past actionable at the right moment."
——论文核心论点：记忆系统必须面向策略设计，让正确的历史在正确的时刻可用。

观测-动作延迟问题图示 — **图1：观测-动作延迟与现有方法的不足。** 当前基于语义摘要或视觉相似度的方法可能选取错误的历史轨迹。有效的记忆系统需要三个核心能力： **可分离性**（separability）——区分相似历史； **可寻址性**（addressability）——检索与控制相关的轨迹； **前瞻性**（prospectiveness）——将记忆转换为可直接驱动动作的状态。

80.8%Camo-Dataset 决策成功率
（vs. Diffusion Policy 22.5%）

87.1%LIBERO-10 成功率

97.3%MemoryBench 成功率

75.1%MIKASA-Robo 成功率

生物学启发

论文将所提三项功能需求类比于人类情景记忆的神经机制：

可分离性（Separability）

类比海马体齿状回（dentate gyrus）的模式分离机制，保持相似历史的独立表示，避免历史轨迹相互干扰。

可寻址性（Addressability）

类比前额叶皮层（PFC）与海马体之间的线索依赖检索机制，以当前控制需求为索引，检索任务相关的历史轨迹。

前瞻性（Prospectiveness）

类比前额叶皮层的目标导向预测功能，将历史记忆整合为"动作就绪"的工作状态，而非仅重建过去。

非马尔可夫决策

在"杯子游戏"等任务中，相同的当前观测对应不同的正确动作，取决于历史上未被直接观测的隐变量（如球的位置）。

02 方法

Chameleon 通过四个核心模块实现控制索引前瞻性记忆：①将多模态观测编码为具身事件 token（embodied event tokens）；②通过选择性状态空间模型（SSM）进行逐 token 轨迹传播；③以学习到的控制索引进行可寻址检索；④将检索到的历史整合为前瞻性策略状态，驱动整流流（rectified-flow）动作生成头。

Chameleon 系统结构图 — **图2：Chameleon 系统总览。** 系统按时间步处理多视角图像、本体感知和语言指令，生成具身事件 token，经双层控制索引记忆模块后输出前瞻性策略状态，最终通过整流流策略头生成动作序列。

① 具身事件 Token 写入

每个时间步 t，系统将来自多摄像头的视觉补丁（经 DP 风格编码器处理）、本体感知（robot state）以及语言指令（经冻结 DistilBERT 编码）拼接为具身事件 token： Zt⁰ = Concat[Xt¹, ..., Xtᵛ, Prop, Lang]。每类 token 保持独立，为后续分离性存储奠定基础。

② 逐 Token 轨迹传播（Separability）

使用选择性状态空间模型（SSM）在时间维度上独立传播每条 token 流的轨迹，而非将所有历史压缩为单一递归向量。这确保视觉、本体感知等不同来源的历史各自保持独立表示，实现可分离性。事件绑定步骤（Event Binding）通过自注意力混合器让各类 token 先相互交互，使写入的事件已包含任务与身体的条件化信息。

③ 控制索引与可寻址检索（Addressability）

模型从本体感知与语言中构建学习到的控制索引（control index），再通过对当前场景证据的注意力加以精化，形成控制上下文（control context）。该上下文以注意力方式查询逐 token 历史轨迹，检索与当前决策相关的历史，实现可寻址性。检索到的轨迹合并为"快"工作状态（fast working state），与"慢"情节级记忆（slow episode-level memory）分离。

④ Control-JEPA 前瞻性训练（Prospectiveness）

区别于重建过去图像或状态的训练目标，Control-JEPA 让当前工作状态预测未来的控制上下文：

ûₜ₊ₖ = g_θ([hₜ, ηₖ])

目标为后续策略步真实使用的控制上下文，使记忆具有前瞻性和"动作就绪"特性。训练损失采用 smooth-L1 对齐（带 stop-gradient 目标）与跨多个预测视野 {1, 2, 4, 8, 16, 32} 的方差正则化。动作生成头使用整流流（rectified-flow），以无噪初始化 Aτ = (1−τ)A₀ + τA* 进行训练。

**图5（补充）：真实机器人实验平台。** 6自由度 UR5 机械臂，配备自适应夹爪与 22 个标注摄像头视角，用于 Camo-Dataset 数据采集。

03 实验

实验在三类基准上评估 Chameleon：（1）自建真实机器人数据集 Camo-Dataset，专门测试观测-动作延迟下的非马尔可夫决策；（2）公开仿真基准 LIBERO-10、MemoryBench、MIKASA-Robo；（3）消融研究与机制探针，验证三项功能性质。

真实机器人：Camo-Dataset

Camo-Dataset 包含三类任务：清洁指定盘子（Clean a specified plate）、杯子游戏（Play shell game）、添加调料（Add various seasonings）。评估指标包括决策成功率（DSR）和总体成功率（SR）。

方法	平均 DSR	平均 MSR	平均 SR
Diffusion Policy	22.5%	—	21.3%
Chameleon（完整）	80.8%	86.1%	71.3%
w/o memory	20.4%	64.8%	17.6%
w/o Control-JEPA	71.6%	72.2%	52.8%
w/o control index	48.8%	56.5%	26.0%

公开基准测试

基准	Chameleon	最强基线	备注
MemoryBench（专项策略）	97.3% ±4.5	SAM2Act+ 94.3%	3个任务，各100条演示
LIBERO-10（混合策略）	87.1% ±0.8	MemoryVLA 93.4%*	10个任务，各50条演示
MIKASA-Robo（混合策略）	75.1% ±1.4	GMP 67.8%	5个非马尔可夫任务
MIKASA-Robo（专项策略）	95.6% ±1.0	DP-VPWEM 86.5%	2个任务设置

* MemoryVLA 为 7B 参数的大型视觉-语言-动作模型；Chameleon 仅 ~60M 可训练参数。

**图3：评估基准概览。** 左侧为公开长视野与记忆基准；右侧为 Camo-Dataset 真实机器人任务。星号（*）标注非马尔可夫决策阶段，即正确动作取决于当前观测之前的历史变量。

消融分析

消融实验清晰揭示各模块贡献：去掉记忆模块后 DSR 从 80.8% 跌至 20.4%，接近随机水平；去掉控制索引后 DSR 降至 48.8%，说明基于任务需求的可寻址检索至关重要；去掉 Control-JEPA 训练目标后 DSR 降至 71.6%，验证了前瞻性训练对于将记忆转化为动作就绪状态的价值。

机制探针（Mechanistic Probes）

**图4：三项功能性质的机制探针实验。** (a) 可分离性：记忆表示对隐变量的解码准确率（83.3%）显著高于当前观测（46.7%）； (b) 可寻址性：反事实轨迹编辑实验——替换相关轨迹使选择准确率从 93% 降至 87%，移除相关轨迹则降至 40%； (c) 前瞻性：有无 Control-JEPA 训练目标时，未来控制信息的解码对比。

04 局限性

说明：论文包含对局限性与未来方向的明确讨论。以下各条均为作者明确陈述（stated），少量细节标注为推断（inferred）。

研究范围局限于片段级模仿策略

本工作专注于"片段级模仿策略中的控制索引前瞻性记忆"（episode-level imitation policies）。控制索引记忆如何在不同具身形态、传感器布局和任务类型之间扩展，仍是开放性问题。作者指出这是自然的后续研究方向。

LIBERO-10 上的残余误差主要源于执行层面

在 LIBERO-10 基准上，剩余的失败案例主要是执行层面的错误（不稳定的抓取、不精确的放置），而非记忆检索失败。这表明动作生成策略本身的精度仍有提升空间，与记忆模块相对解耦。（stated）

尚未实现基础模型规模的跨任务/跨具身泛化

论文展望将控制索引记忆作为可复用模块嵌入基础级机器人策略，支持跨任务、跨具身的泛化迁移。当前工作尚未在此规模上验证。（stated 作为未来方向）

主动感知与前瞻记忆的结合尚未探索

作者指出，将前瞻性记忆与主动感知（active perception）相结合——让机器人在信息变得对决策至关重要之前主动获取证据——是一个有前景的扩展方向，但当前工作中未涉及。（stated 作为未来方向）

推断：对训练数据量与演示质量的依赖

推断（inferred）：Chameleon 以监督模仿学习为基础，其性能可能随演示数据质量与数量的变化而波动。Control-JEPA 的多视野预测目标同样依赖足量的历史序列，在低数据量场景下的表现尚不明确。