AGNOSTOS & X-ICM：视觉语言动作模型跨任务泛化极限探索

01 动机

通用机器人操作的核心挑战在于：模型能否将学到的技能迁移到从未见过的任务上？现有 VLA 模型（包括 π0、OpenVLA、RDT 等）的跨任务泛化能力几乎未被系统研究，缺乏统一的评估框架。

"The cross-task generalization capabilities of existing VLA models remain significantly underexplored."

AGNOSTOS benchmark overview — **Figure 1：AGNOSTOS 基准概览。**Level-1 包含 13 个未见任务，与训练任务有部分语义相似性（共享对象或动作原语）；Level-2 包含 10 个完全陌生的场景，既无已知对象也无已知动作，要求更强的泛化推断能力。右侧展示了具体任务示例。

23未见测试任务总数

13 + 10Level-1 + Level-2

18已见训练任务数（RLBench）

12+评测的 VLA 模型类别

现有跨任务评估基准（如 Colosseum、GemBench）缺乏对 foundation model 与人类视频预训练模型的系统比较，且未区分难度级别。AGNOSTOS 通过双难度设计和多类别 VLA 评测，首次全面揭示了当前模型的跨任务能力边界。

已评测 VLA 模型类别

域内模型：PerAct, RVT, RVT2, Sigma-Agent, InstantPolicy
人类视频预训练：R3M, D4R 系列
Foundation model：OpenVLA, RDT, π0, VoxPoser, SAM2Act, 3D-LOTUS++

核心发现

所有现有 VLA 基线在 23 个未见任务中均表现欠佳
多个模型在 ≥8 个任务上完全失败（成功率 0%）
Level-2 难度对所有模型均构成显著挑战
X-ICM 是唯一在全部 23 个任务中均有成功的方法

02 方法

X-ICM（Cross-Task In-Context Manipulation）将跨任务泛化问题转化为 LLM 的上下文学习问题：将已见任务的示例"文本化"后作为 prompt，驱动大语言模型直接预测未见任务的动作序列。该方法无需对 VLA 进行额外微调，完全在推理阶段运行。

X-ICM method overview — **Figure 2：X-ICM 方法总览。**左侧为*动态引导示例选择*模块：训练 dynamics diffusion model 从初始观测和语言描述预测任务完成后的最终视觉状态，提取特征后通过余弦相似度检索最相关的 K=18 条已见示例。右侧为*跨任务上下文预测*模块：将选出的示例构造为"语言/对象上下文 → 归一化 3D 动作坐标"映射的文本 prompt，输入 LLM（Qwen2.5-7B/72B）生成未见任务的动作。

模块一：Dynamics-Guided Sample Selection（动态引导示例选择）

直接用语义相似性选示例效果有限，因为跨任务的关键在于动作动态而非表面语义。X-ICM 训练一个基于 InstructPix2Pix 的 dynamics diffusion model（记为 𝒢），以初始视觉观测和语言描述为条件，预测任务完成时的最终视觉状态。提取其 language feature（f_lang）与 visual feature（f_vis.in）的组合作为动态特征表示，然后通过余弦相似度从所有已见示例中检索 K=18 条最相关的跨任务演示。该模块显著提升了示例的相关性，降低了预测方差。

模块二：Cross-Task In-Context Prediction（跨任务上下文预测）

将选出的 K 条示例"文本化"为结构化 prompt：每条示例表示为（语言描述, 对象位置信息）→（归一化 3D 动作坐标序列）的映射。将 prompt 输入 LLM（Qwen2.5-7B 或 Qwen2.5-72B），要求其推断未见任务的动作模式并输出相应的动作坐标。整个流程不修改 VLA 模型权重，推理时间开销主要来自 LLM forward pass。

设计核心：通过"动态特征"而非"表面语义"匹配示例，使 LLM 能够在已见任务的动作模式中发现与未见任务最相关的跨任务规律，从而实现真正意义上的零样本操作泛化。

03 实验

在 AGNOSTOS 基准的 23 个未见任务上进行零样本跨任务评测，并在 5 个真实物理场景中验证 X-ICM 的迁移能力。所有成功率均为多次运行的均值 ± 标准差。

主要结果（Table 2：跨任务零样本操作成功率）

方法	Level-1（13 任务）	Level-2（10 任务）	Overall（23 任务）
VoxPoser	20.9% ± 0.3	8.0% ± 0.3	15.6% ± 0.2
π0（prior best）	21.7% ± 0.4	11.5% ± 0.5	17.5% ± 0.4
SAM2Act	14.4% ± 0.5	15.9% ± 1.3	15.1% ± 0.8
X-ICM（7B）	28.6% ± 1.9	16.9% ± 1.3	23.5% ± 1.6
X-ICM（72B）	37.6% ± 1.4	20.3% ± 1.7	30.1% ± 1.0

X-ICM（72B）在 Overall 上超越 π0 约 +6.0%，超越 VoxPoser 约 +7.9%。更重要的是，X-ICM（72B）是唯一在全部 23 个任务中均获得非零成功率的方法，而其他基线模型在 ≥8 个任务上完全失败。

Ablation：动态引导选择模块的作用（Table 3）

配置	Level-1	Level-2	Overall
X-ICM（72B）无选择模块	30.7% ± 4.7	18.0% ± 2.2	25.2% ± 3.2
X-ICM（72B）含选择模块	37.6% ± 1.4	20.3% ± 1.7	30.1% ± 1.0

动态引导选择模块将 Overall 从 25.2% 提升至 30.1%（+4.9%），同时将标准差从 ±3.2 显著降至 ±1.0，表明该模块不仅提升了性能，还大幅增强了预测的稳定性。此外，上下文示例数量 K 在超过 12 条后性能趋于饱和。

effect of demo count — **Figure 3：上下文示例数量的影响。**随着 K 增加，X-ICM 性能持续提升，但在 K≈12 后趋于平稳，说明过多示例不再带来额外收益。

真实世界实验

real-world results — **Figure 4：五个真实物理任务的零样本跨任务测试结果。**X-ICM 在单步任务上表现合理，但在长流程任务（"clean the table"，需多步骤串联）上仅达到 5% 成功率，源于各子步骤错误的累积放大效应。

04 局限性

说明：以下局限性均为论文作者明确陈述（stated）。

视觉信息利用不足（Limited Visual Understanding）

X-ICM 将视觉信息压缩为对象坐标文本，原文指出 "the use of visual information is limited to textualizing object information, which may ignore important visual context in the raw data"。这意味着纹理、形状、场景上下文等精细视觉线索无法被 LLM 直接利用，对于需要精细视觉感知的任务（如区分相似外观物体）效果受限。

LLM 外推能力的上限（Extrapolation Limits of LLMs）

原文指出 "X-ICM's performance on many unseen tasks...remains limited due to LLMs' challenges in extrapolating beyond pre-training data"。当未见任务的概念完全超出 LLM 的预训练分布时，其动作推断能力将显著退化，特别是 Level-2 中具有全新对象和动作原语的任务。

长流程任务的累积失败（Cascading Failures in Long-Horizon Tasks）

真实世界"clean the table"任务的整体成功率仅为 5%，原因是多步骤串联任务中各子步骤的错误相互叠加。这是 in-context 预测框架的固有缺陷：无法在线修正中间步骤的偏差。

全新语义组合的挑战（Novel Semantic Combinations）

Level-2 中同时包含新对象与新动作原语的任务对所有方法均构成最大挑战。X-ICM（72B）在 Level-2 的 20.3% 成功率虽优于基线，但仍远低于 Level-1 的 37.6%，反映出当前 LLM 的跨任务外推能力边界。