arXiv 2025 · 机器人 · Robotics

ChatVLA

Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
Zhongyi Zhou, Yichen Zhu, Minjie Zhu, Junjie Wen, Ning Liu, Zhiyuan Xu, Weibin Meng, Ran Cheng, Yaxin Peng, Chaomin Shen, Feifei Feng  ·  Midea Group · ECNU · Shanghai University · Beijing Humanoid Robotics · Tsinghua University

ChatVLA 提出统一的 Vision-Language-Action 框架,通过分阶段对齐训练(Phased Alignment Training)混合专家架构(Mixture-of-Experts),同步解决 VLA 模型中的"伪遗忘"与"任务干扰"两大痛点,在多模态理解与真实机器人操作两个维度均达到 SOTA 水平。

arXiv 2502.14420 2025年2月 2B 参数 📄 arXiv:2502.14420 PDF
vision-language-action model VLA Mixture-of-Experts phased alignment training spurious forgetting task interference embodied AI 具身智能 multimodal understanding robot manipulation

01 动机 Motivation

现有 VLA 模型在机器人控制与多模态理解之间存在根本性矛盾:擅长底层操作的架构往往丧失视觉-语言对齐能力,而强大的 VLM 又缺乏物理交互能力。作者通过系统分析训练范式,识别出两大核心挑战。

"Through a systematic analysis of existing training paradigms in vision-language-action models (VLA), we identify two key challenges: spurious forgetting, where robot training overwrites crucial visual-text alignments, and task interference, where competing control and understanding tasks degrade performance when trained jointly."
teaser — training data influence on VLA performance
Figure 1. 不同训练数据配置对 VLA 性能的影响对比。横轴为5项真实机器人任务,纵轴为6个多模态基准。实验揭示:仅用机器人数据训练会导致多模态理解能力严重下降;而朴素的联合训练(naive joint training)同样会因任务干扰损害两端性能。ChatVLA 通过分阶段训练策略有效平衡了两者。
在 MMMU 上相比 ECoT 的性能提升(37.4 vs. 5.4)
55/107ChatVLA 跨技能多任务成功次数(OpenVLA 仅 20/107)
1.00Task 3 平均成功长度(满分),Octo 仅 0.11
2B模型参数量,对标 Qwen2-VL-2B 底座

两大核心挑战

Spurious Forgetting(伪遗忘)

机器人数据微调过程中,模型会覆盖预训练阶段习得的视觉-文本对齐能力。即便使用 LoRA 等参数高效方法,这种遗忘现象依然存在,导致 VLA 在多模态理解基准(如 MMMU、TextVQA)上性能几乎归零。

Task Interference(任务干扰)

当控制任务与理解任务同时训练时,二者的梯度方向相互冲突,导致两端性能均出现退化。这与 Dual Coding Theory(双编码理论)的预测一致——不同模态的信息在大脑中由独立通道处理。

02 方法 Method

ChatVLA 提出两项互补的创新:Phased Alignment Training(分阶段对齐训练)解决伪遗忘问题,Mixture-of-Experts (MoE) 架构解决任务干扰问题。两者共同实现多模态理解与机器人控制的统一。

phased alignment training strategy
Figure 2. 分阶段对齐训练策略示意。第一阶段(Stage 1):仅使用机器人轨迹数据训练,使模型充分掌握具身控制能力;第二阶段(Stage 2):引入视觉-文本数据与机器人数据联合训练(co-training),以逐步"重激活"(reactivate)被冻结的对齐链路,同时保留操作技能。

Phased Alignment Training(分阶段对齐训练)

直接将机器人数据与视觉-文本数据混合训练会导致两类任务相互拖累。ChatVLA 的解决思路是:先专注控制,再逐步引入理解。第一阶段让模型在机器人轨迹上充分优化,建立稳固的动作预测能力;第二阶段再以合理的数据比例混入视觉-文本数据(论文发现 1:3 的视觉-文本:机器人数据比例最优),"渐进式"地恢复多模态对齐能力,而不损害已学到的控制策略。

mixture-of-experts architecture
Figure 3. Mixture-of-Experts 架构示意。每个 Transformer 层包含共享的 Self-Attention 模块(负责跨任务知识迁移)以及两套独立的 MLP Expert(分别处理机器人数据与视觉-文本数据)。路由机制(router)根据输入 token 类型动态选择对应专家,从而在保持知识共享的同时最小化任务间干扰。

Mixture-of-Experts Architecture(混合专家架构)

受 Dual Coding Theory 启发,ChatVLA 在每个 Transformer 块中设置两类专家(Expert):

与 Dense MoE(所有 token 使用全部专家)不同,ChatVLA 的路由策略是确定性的——机器人 token 只走机器人专家,视觉-文本 token 只走理解专家,避免了 top-k sparse routing 带来的负载均衡问题。

03 实验 Experiments

实验分两部分:(1)在13个多模态理解基准上与 Qwen2-VL、OpenVLA、ECoT、DiVLA 对比;(2)在25项真实机器人任务(长时序操作 + 跨技能多任务)上与 Octo、OpenVLA 对比。所有机器人实验均在真实物理环境中进行,无仿真。

Table 1:多模态理解基准对比

Method#ParamsMMMUMMStarTextVQADocVQAMMEOCRBenchHallBench
Qwen2-VL2B41.148.079.788.571872.080941.7
OpenVLA7B0000000
ECoT7B5.40000120.9
DiVLA2B17.221.17.515.2186.52949.0
ChatVLA (Ours)2B37.447.271.283.31435.272939.9

ChatVLA 在大多数理解基准上远超同等参数的 VLA 竞品(OpenVLA、ECoT、DiVLA),并接近纯 VLM 基线 Qwen2-VL。在 MMMU 上实现 37.4 vs. ECoT 的 5.4(约 6 倍提升);在 TextVQA 上达到 71.2(OpenVLA 为 0)。

MMMU category-wise comparison
Figure 4. ChatVLA 与 Qwen2-VL 在 MMMU 验证集六大类别上的逐类对比。ChatVLA 在多数类别接近 Qwen2-VL(2B),但在 Art Theory、Lab Medicine、Pharmacy、Literature、Psychology 等专业领域仍有明显差距,原因是训练数据(LLaVA)中此类专业知识覆盖不足。

Table 2:长时序机器人任务(直接指令)

MethodTask 1 平均成功长度Task 2Task 3Task 4
Octo0.080.210.110.33
OpenVLA0.060.290.150.42
ChatVLA (Ours)0.540.641.000.75

Table 4:跨技能多任务(25 项真实任务)

MethodBathroom (Tasks 14-17)Kitchen (Tasks 18-19)Tabletop (Tasks 20-25)Total
Octo4/344/1810/5518/107
OpenVLA3/345/1812/5520/107
ChatVLA (Ours)16/3412/1827/5555/107
real robot task settings
Figure 5. 真实机器人任务场景设置。涵盖长时序直接指令任务(玩具分类、抽屉开关等)、高层规划器引导任务,以及跨场景多任务(浴室、厨房、桌面)。

Ablations:数据比例消融(Table 5)

论文对视觉-文本数据与机器人数据的比例进行系统消融(1:1 / 3:1 / 1:3):

Ratio (VT:Robot)MMMUMMStarTextVQADocVQAMME
1:136.144.772.682.91426.9
3:135.345.372.783.61399.5
1:3(最优)37.447.271.283.31435.2

结果表明,1:3 的视觉-文本:机器人数据比例在多数理解基准上取得最优,同时维持机器人任务成功率。增大视觉-文本比例(3:1)不仅未能进一步提升理解性能,反而对 MMMU 等指标略有损害。

04 局限性 Limitations

Note: 以下局限性部分由论文作者明确陈述(标注为"stated"),部分由设计推断(标注为"inferred")。
专业领域知识覆盖不足(stated)

论文明确指出:ChatVLA 在 MMMU 的艺术理论(Art Theory)、实验室医学(Lab Medicine)、药学(Pharmacy)、文学(Literature)、心理学(Psychology)等专业类别上与 Qwen2-VL 仍有明显差距,原因是训练所用的 LLaVA 数据集对这些专业领域的覆盖有限。作者表示"carefully curated data is crucial for mitigating spurious forgetting, a topic we plan to explore in future work"。

多模态理解性能尚未追平纯 VLM(stated)

尽管 ChatVLA(2B)在多数基准上远超同类 VLA,但与同等参数的纯视觉语言模型 Qwen2-VL-2B 相比仍有差距(例如 MMMU:37.4 vs. 41.1;TextVQA:71.2 vs. 79.7)。引入机器人控制能力本身仍会带来一定的理解能力损耗。

数据路由的确定性假设(inferred)

ChatVLA 的 MoE 路由采用基于 token 类型的确定性分配(机器人 token → 机器人专家,视觉-文本 token → 理解专家),这简化了训练但也限制了模型在混合任务场景下的灵活性。对于需要同时融合动作预测与语言推理的复杂指令,固定路由可能不是最优方案(inferred)。

真实机器人实验规模有限(inferred)

尽管论文在真实物理环境(浴室、厨房、桌面)中进行了25项任务的评估,但每项任务的试验次数有限,且场景多样性相对受控。方法在更大规模、更开放环境下的泛化能力尚待验证(inferred)。