MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

01 动机

当前 VLA（Vision-Language-Action）模型通常针对单一任务或单一机器人形态进行微调，难以扩展至多技能通才场景。模型合并（model merging）是一种无需重新训练即可整合多个专家知识的技术，但直接将多个 VLA 专家合并会导致几乎为零的成功率，根本原因在于两类不可合并性。

"directly merging VLA experts trained on different tasks results in near-zero success rates."

MergeVLA 总览 — MergeVLA 框架总览：通过任务掩码、重设计的 action expert 以及测试时任务路由，将多个 VLA 专家无损合并为单一通才模型。

问题一：LoRA 参数干扰

不同任务的 LoRA 微调更新激活了几乎互不相交的参数子集。分析显示，超过 75% 的参数是"自私的"（selfish）——仅与一个任务相关，直接合并时这些参数会互相干扰，导致性能崩溃。

问题二：Action Expert 架构不兼容

传统 VLA-Adapter 中 action expert 含有 self-attention 层，训练过程中不同任务的 self-attention 会在各层之间积累任务特定的依赖关系（inter-block dependencies），导致合并后信息混乱、难以区分任务。

~0%直接合并 VLA-Adapter 的成功率

75%+参数为"selfish"（仅属于单一任务）

90.2%MergeVLA 合并后 LIBERO 平均成功率

90%真实 SO-101 机械臂平均成功率

02 方法

MergeVLA 由三个核心组件构成：（1）稀疏任务掩码用于 VLM 部分的无干扰合并， （2）重新设计的 action expert消除跨块依赖， （3）测试时任务路由器在无监督条件下实时识别当前任务并激活对应掩码。

不同 VLA 架构对比：OpenVLA 使用标准 VLM 生成 token 化动作；VLA-Adapter 增加了含 cross-attention 和 self-attention 的 action expert；MergeVLA 移除了不可合并的 self-attention 层，仅保留 cross-attention。

MergeVLA 架构图 — MergeVLA 完整架构：(1) 任务掩码选择性激活合并后的 LoRA 参数；(2) 重设计的 action expert 仅含 cross-attention 与 sigmoid 门控；(3) 训练无关的测试时任务路由器动态选择任务组件。

任务掩码用于 VLM 合并（Task Masking for VLM Merging）

对于 VLM 部分，MergeVLA 在 TIES 或 WUDI 等基础合并算法之上引入二值任务掩码（binary task mask）。对每个任务 m，掩码构造方式为：

S_m = I[|τ_m| > λ|τ_merge − τ_m|]

即仅保留任务特定更新显著且与整体合并向量对齐的参数（由超参数 λ 控制掩码比率）。推理时，对应任务的掩码被激活，从而屏蔽其他任务的参数干扰。

Action Expert 重设计（Action Expert Redesign）

针对 action expert 的不可合并性，MergeVLA 做出两处关键架构修改：

移除 self-attention 层：消除跨块的任务特定依赖，action expert 完全依赖 VLM 的 cross-attention 特征，具有更好的泛化性。
tanh → sigmoid 门控：确保 VLM 信息不会被压制（tanh 会将值域限制在 [−1,1]，而 sigmoid 保证信号始终正向流通），维持均衡的特征保留。

对于跨任务差异较大的场景（如跨形态），最后 1–2 个 action expert 块（记为 H^(L-1→L) 或 H^(L-2→L)）保持未合并，以保留任务特异性。

测试时任务路由（Test-Time Task Routing）

该路由器无需训练，仅利用初始观测帧进行任务识别：

对每个候选任务掩码，运行 VLM 的 cross-attention 块得到隐状态；
对 value projection 矩阵做 SVD，将隐状态投影到主成分子空间；
通过 softmax 计算各任务的激活分数，选择得分最高的任务并激活其掩码。

消融实验表明，使用 value（V）投影子空间的路由效果（LIBERO 平均 89.7%）显著优于 key（K）投影（53.6%），选择 V 是最终设计。

Selfish 参数分析 — 左：随任务数增加，TA 和 TIES 合并方法中"selfish"参数（仅与单一任务相关）的比例均超过 75%，证明直接合并的失败根源。右：不同 action expert 块之间的相对 L2 距离分析，揭示 self-attention 引入的跨块依赖。

03 实验

实验覆盖三个基准：LIBERO（四套仿真任务组）、LIBERO-Plus（七类分布外扰动测试）、 RoboTwin（跨形态跨任务）及真实 SO-101 机械臂。基线包括 OpenVLA、π0、VLA-Adapter 等。

LIBERO 基准（单任务微调 vs 合并模型）

方法	Spatial	Object	Goal	Long	平均
OpenVLA（单任务）	84.7%	88.4%	79.2%	53.7%	76.5%
VLA-Adapter（单任务）	99.6%	99.6%	98.2%	96.4%	98.5%
MergeVLA（单任务，合并前参考）	98.0%	98.6%	95.0%	95.0%	96.7%
VLA-Adapter + TA（合并后）	0%	0%	0%	0%	0%
MergeVLA TIES（合并后）	94.8%	94.6%	91.8%	79.4%	90.2%
MergeVLA WUDI（合并后）	97.6%	98.2%	85.6%	78.2%	89.9%

LIBERO-Plus 鲁棒性测试（七类扰动）

方法	LIBERO-Plus 平均成功率
OpenVLA	16.3%
π0	56.3%
VLA-Adapter	59.0%
MergeVLA（合并后）	62.5%

在颜色变化、光照变化、视角偏移、指令改写等七类分布外扰动下，MergeVLA 全面超越所有基线，展示出优异的泛化能力。

LIBERO-Plus 扰动类型 — LIBERO-Plus 的七类视觉与语言扰动示例，用于评估模型在分布外场景下的鲁棒性。

RoboTwin 跨形态实验

设置	单任务基线	MergeVLA（合并后）
Setting A（相同任务，不同形态）	88.0%	88.7%（H^L-1→L 未合并）
Setting B（不同任务，不同形态）	76.0%	70.7%（H^L-2→L 未合并）

Setting A 中合并模型（88.7%）已超越单任务基线（88.0%）；Setting B 中跨任务跨形态的组合挑战导致性能有所下降，但仍验证了跨形态泛化能力。

RoboTwin 实验设置 — RoboTwin 跨形态实验：三种不同双臂机器人形态上测试 MergeVLA 的多任务合并效果。

真实机器人 SO-101 验证

任务	MergeVLA TIES 成功率
Pick & Place（含颜色分布外测试）	90.0%
Push Cube	90.0%
Stack Cube	90.0%
平均	90.0%

消融实验

掩码比率 λ 的影响：λ 过小（如 0.2）导致几乎 0% 成功率，λ 在 [0.6, 0.9] 区间时性能稳定在 70% 以上，表明方法对该超参数有一定鲁棒性。

路由子空间选择：仅用 K 投影子空间路由时 LIBERO 平均 53.6%，K+V 组合为 65.1%，仅用 V 达到最优 89.7%。

Expert head 深度：跨任务合并时保留最后 1 个块（H^L-1→L）足以应对同形态场景，跨形态时则需保留最后 2 个块（H^L-2→L）。

04 局限性

注：论文未设置显式的 Limitations 章节。以下各点部分源自论文对实验结果的讨论（stated），部分为从设计中推断（inferred）。

内存开销随任务数线性增长（inferred）

MergeVLA 需要为每个任务维护一套独立的二值任务掩码和未合并的 expert head 块。随任务数 M 增加，存储的掩码和 head 数量线性增长，对大规模多任务场景的可扩展性构成限制。

跨任务跨形态合并性能下降（stated）

在 RoboTwin Setting B（不同任务 + 不同机器人形态）中，MergeVLA 合并后的平均成功率（70.7%）低于单任务基线（76.0%）。论文指出此设置需保留更多层（H^L-2→L）未合并，降低了模型压缩收益。对于需要双臂协调的 handover 类任务，跨任务跨形态的挑战尤为突出。

主干模型规模受限（inferred）

主要实验基于 Qwen2.5-0.5B 的小型 VLM 骨干网络，对更大规模 VLM 骨干（如 7B+）的扩展性尚未验证。更大规模模型的 selfish 参数分布和 action expert 合并特性可能有所不同。

路由器依赖任务子空间可区分性（inferred）

测试时任务路由器通过 V projection 的 SVD 主成分子空间区分任务，当任务在视觉观测上高度相似（如同一物体的不同操作）时，子空间区分度可能下降，影响路由准确率。