Visuomotor Manipulation · Robot Memory

Chameleon:面向视觉运动操作的控制索引前瞻性记忆

Control-Indexed Prospective Memory for Visuomotor Manipulation
Xinying Guo, Chenxi Jiang, Hyun Bin Kim, Yuhang Han, Ying Sun, Yang Xiao, Jianfei Yang  ·  南洋理工大学 MARS Lab & A*STAR & 新加坡国立大学

机器人在执行操作任务时,往往需要依赖远早于当前决策时刻观察到的历史信息——即"观测-动作延迟"(observation–action delay)问题。Chameleon 提出了一种约 60M 参数的视觉运动策略,通过控制索引前瞻性记忆(control-indexed prospective memory)模块,使机器人能够在正确的时机检索并利用历史轨迹,从而在真实机器人任务中将决策成功率从 22.5% 大幅提升至 80.8%。

arXiv 2603.24576 ~60M 参数 2026年6月 论文页面 GitHub
关键词visuomotor manipulationprospective memorycontrol-indexed retrieval非马尔可夫决策observation-action delay状态空间模型imitation learningrobot manipulationControl-JEPA视觉别名

01 动机

现有的记忆增强策略依赖语义相似度或视觉相似度检索历史轨迹,往往召回貌似合理但与当前决策无关的轨迹。这一根本缺陷导致机器人在视觉别名(visual aliasing)严重的任务中频繁犯错——例如"杯子游戏"(shell game)中多个杯子外观相同,历史上哪个杯子藏着球才是关键。

"Memory must be policy-facing—designed to make the right past actionable at the right moment."
——论文核心论点:记忆系统必须面向策略设计,让正确的历史在正确的时刻可用。
观测-动作延迟问题图示
图1:观测-动作延迟与现有方法的不足。 当前基于语义摘要或视觉相似度的方法可能选取错误的历史轨迹。有效的记忆系统需要三个核心能力: 可分离性(separability)——区分相似历史; 可寻址性(addressability)——检索与控制相关的轨迹; 前瞻性(prospectiveness)——将记忆转换为可直接驱动动作的状态。
80.8%Camo-Dataset 决策成功率
(vs. Diffusion Policy 22.5%)
87.1%LIBERO-10 成功率
97.3%MemoryBench 成功率
75.1%MIKASA-Robo 成功率

生物学启发

论文将所提三项功能需求类比于人类情景记忆的神经机制:

可分离性(Separability)

类比海马体齿状回(dentate gyrus)的模式分离机制,保持相似历史的独立表示,避免历史轨迹相互干扰。

可寻址性(Addressability)

类比前额叶皮层(PFC)与海马体之间的线索依赖检索机制,以当前控制需求为索引,检索任务相关的历史轨迹。

前瞻性(Prospectiveness)

类比前额叶皮层的目标导向预测功能,将历史记忆整合为"动作就绪"的工作状态,而非仅重建过去。

非马尔可夫决策

在"杯子游戏"等任务中,相同的当前观测对应不同的正确动作,取决于历史上未被直接观测的隐变量(如球的位置)。

02 方法

Chameleon 通过四个核心模块实现控制索引前瞻性记忆:①将多模态观测编码为具身事件 token(embodied event tokens);②通过选择性状态空间模型(SSM)进行逐 token 轨迹传播;③以学习到的控制索引进行可寻址检索;④将检索到的历史整合为前瞻性策略状态,驱动整流流(rectified-flow)动作生成头。

Chameleon 系统结构图
图2:Chameleon 系统总览。 系统按时间步处理多视角图像、本体感知和语言指令,生成具身事件 token,经双层控制索引记忆模块后输出前瞻性策略状态,最终通过整流流策略头生成动作序列。

① 具身事件 Token 写入

每个时间步 t,系统将来自多摄像头的视觉补丁(经 DP 风格编码器处理)、本体感知(robot state)以及语言指令(经冻结 DistilBERT 编码)拼接为具身事件 token: Zt⁰ = Concat[Xt¹, ..., Xtᵛ, Prop, Lang]。 每类 token 保持独立,为后续分离性存储奠定基础。

② 逐 Token 轨迹传播(Separability)

使用选择性状态空间模型(SSM)在时间维度上独立传播每条 token 流的轨迹,而非将所有历史压缩为单一递归向量。这确保视觉、本体感知等不同来源的历史各自保持独立表示,实现可分离性。事件绑定步骤(Event Binding)通过自注意力混合器让各类 token 先相互交互,使写入的事件已包含任务与身体的条件化信息。

③ 控制索引与可寻址检索(Addressability)

模型从本体感知与语言中构建学习到的控制索引(control index),再通过对当前场景证据的注意力加以精化,形成控制上下文(control context)。该上下文以注意力方式查询逐 token 历史轨迹,检索与当前决策相关的历史,实现可寻址性。检索到的轨迹合并为"快"工作状态(fast working state),与"慢"情节级记忆(slow episode-level memory)分离。

④ Control-JEPA 前瞻性训练(Prospectiveness)

区别于重建过去图像或状态的训练目标,Control-JEPA 让当前工作状态预测未来的控制上下文:

ûₜ₊ₖ = gθ([hₜ, ηₖ])

目标为后续策略步真实使用的控制上下文,使记忆具有前瞻性和"动作就绪"特性。训练损失采用 smooth-L1 对齐(带 stop-gradient 目标)与跨多个预测视野 {1, 2, 4, 8, 16, 32} 的方差正则化。动作生成头使用整流流(rectified-flow),以无噪初始化 Aτ = (1−τ)A₀ + τA* 进行训练。

真实机器人实验平台
图5(补充):真实机器人实验平台。 6自由度 UR5 机械臂,配备自适应夹爪与 22 个标注摄像头视角,用于 Camo-Dataset 数据采集。

03 实验

实验在三类基准上评估 Chameleon:(1)自建真实机器人数据集 Camo-Dataset,专门测试观测-动作延迟下的非马尔可夫决策;(2)公开仿真基准 LIBERO-10MemoryBenchMIKASA-Robo;(3)消融研究与机制探针,验证三项功能性质。

真实机器人:Camo-Dataset

Camo-Dataset 包含三类任务:清洁指定盘子(Clean a specified plate)、杯子游戏(Play shell game)、添加调料(Add various seasonings)。评估指标包括决策成功率(DSR)总体成功率(SR)

方法平均 DSR平均 MSR平均 SR
Diffusion Policy22.5%21.3%
Chameleon(完整)80.8%86.1%71.3%
w/o memory20.4%64.8%17.6%
w/o Control-JEPA71.6%72.2%52.8%
w/o control index48.8%56.5%26.0%

公开基准测试

基准Chameleon最强基线备注
MemoryBench(专项策略) 97.3% ±4.5 SAM2Act+ 94.3% 3个任务,各100条演示
LIBERO-10(混合策略) 87.1% ±0.8 MemoryVLA 93.4%* 10个任务,各50条演示
MIKASA-Robo(混合策略) 75.1% ±1.4 GMP 67.8% 5个非马尔可夫任务
MIKASA-Robo(专项策略) 95.6% ±1.0 DP-VPWEM 86.5% 2个任务设置

* MemoryVLA 为 7B 参数的大型视觉-语言-动作模型;Chameleon 仅 ~60M 可训练参数。

评估基准概览
图3:评估基准概览。 左侧为公开长视野与记忆基准;右侧为 Camo-Dataset 真实机器人任务。星号(*)标注非马尔可夫决策阶段,即正确动作取决于当前观测之前的历史变量。

消融分析

消融实验清晰揭示各模块贡献:去掉记忆模块后 DSR 从 80.8% 跌至 20.4%,接近随机水平;去掉控制索引后 DSR 降至 48.8%,说明基于任务需求的可寻址检索至关重要;去掉 Control-JEPA 训练目标后 DSR 降至 71.6%,验证了前瞻性训练对于将记忆转化为动作就绪状态的价值。

机制探针(Mechanistic Probes)

三项功能性质的机制探针
图4:三项功能性质的机制探针实验。 (a) 可分离性:记忆表示对隐变量的解码准确率(83.3%)显著高于当前观测(46.7%); (b) 可寻址性:反事实轨迹编辑实验——替换相关轨迹使选择准确率从 93% 降至 87%,移除相关轨迹则降至 40%; (c) 前瞻性:有无 Control-JEPA 训练目标时,未来控制信息的解码对比。

04 局限性

说明:论文包含对局限性与未来方向的明确讨论。以下各条均为作者明确陈述(stated),少量细节标注为推断(inferred)。
研究范围局限于片段级模仿策略

本工作专注于"片段级模仿策略中的控制索引前瞻性记忆"(episode-level imitation policies)。控制索引记忆如何在不同具身形态、传感器布局和任务类型之间扩展,仍是开放性问题。作者指出这是自然的后续研究方向。

LIBERO-10 上的残余误差主要源于执行层面

在 LIBERO-10 基准上,剩余的失败案例主要是执行层面的错误(不稳定的抓取、不精确的放置),而非记忆检索失败。这表明动作生成策略本身的精度仍有提升空间,与记忆模块相对解耦。(stated)

尚未实现基础模型规模的跨任务/跨具身泛化

论文展望将控制索引记忆作为可复用模块嵌入基础级机器人策略,支持跨任务、跨具身的泛化迁移。当前工作尚未在此规模上验证。(stated 作为未来方向)

主动感知与前瞻记忆的结合尚未探索

作者指出,将前瞻性记忆与主动感知(active perception)相结合——让机器人在信息变得对决策至关重要之前主动获取证据——是一个有前景的扩展方向,但当前工作中未涉及。(stated 作为未来方向)

推断:对训练数据量与演示质量的依赖

推断(inferred):Chameleon 以监督模仿学习为基础,其性能可能随演示数据质量与数量的变化而波动。Control-JEPA 的多视野预测目标同样依赖足量的历史序列,在低数据量场景下的表现尚不明确。