MM-ACT: Learn from Multimodal Parallel Generation to Act

01 动机 Motivation

通用机器人策略需要同时具备语义理解（任务规划）与环境交互（动作预测）两种能力，但现有方法往往将二者分离处理，难以充分利用多模态信号之间的互补关系。

"A generalist robotic policy needs both semantic understanding for task planning and the ability to interact with the environment through predictive capabilities."

不同 VLA 范式对比 — 图 1：不同统一 VLA 范式对比。MM-ACT（右）将文本、图像与动作三种模态统一在共享 token 空间中，通过 Context-Shared Multimodal Learning 同时监督三种模态的生成，而早期方法（左、中）仅支持单一或两种模态的联合训练。

96.3%LIBERO 平均成功率

72.0%Franka 真实机器人成功率

52.38%RoboTwin2.0 双臂任务成功率

+9.25%跨模态学习带来的额外增益

现有方法的不足

单模态辅助训练：许多 VLA 仅将视觉或语言生成作为辅助任务，缺乏统一的多模态生成框架。
自回归解码效率低：逐 token 的自回归动作解码在 40 Hz 实时控制场景下瓶颈明显。
跨模态上下文未充分利用：文本描述与图像预测对动作生成的潜在增益未被系统挖掘。

02 方法 Method

MM-ACT 将文本 token、图像 token 与动作 token 编码进同一序列，通过 re-mask 并行解码生成文本/图像，通过一步并行解码生成动作，并用 Context-Shared Multimodal Learning 在共享上下文下统一监督三种模态。

MM-ACT 整体架构 — 图 2：MM-ACT 架构。输入由多视角观测图像、任务语言指令、文本描述及机器人状态（可选）组成的 modality-interleaved token sequence；通过 bidirectional attention 的 masked token prediction，同时预测文本、图像与动作三种模态的 token。

统一 Token 空间

模型为文本、图像、动作分别配置模态专属的 tokenizer，将三种模态映射到同一维度的 token 序列。推理时，所有已知信息（观测图像、语言指令、文本描述、机器人状态）拼接为共享上下文，掩码位置对应待生成的目标 token。

Re-mask 并行解码（文本与图像）

对于文本和图像生成，MM-ACT 采用 re-mask parallel decoding 策略：每个解码步骤中，模型并行预测所有掩码位置的 token，然后依置信度保留高分 token，低置信度 token 重新被掩码（re-masked）并在下一步重新预测。文本使用线性调度；图像使用余弦调度控制每步揭示的 token 比例。

一步并行解码（动作）

动作生成采用 one-step parallel decoding，即"predict all masked tokens simultaneously"，单次前向传播即可输出完整动作 chunk，支持 40 Hz 的实时控制频率，推理耗时仅约 0.22–0.23 秒（chunk size 8–16）。

MM-ACT 训练流程 — 图 3：两阶段训练流程。Stage 1 仅训练文本与图像生成（固定动作模态权重为 0）；Stage 2 引入动作生成，辅助模态权重约为 0.05–0.1。共享上下文（shared context）在两阶段均保持一致，确保跨模态信号互相增强。

Context-Shared Multimodal Learning

MM-ACT 的核心训练范式：三种模态的生成任务共享完全相同的输入上下文，使用统一的 cross-entropy loss 同时监督文本、图像与动作的 token 预测。这使模型在学习动作时能同时接收文本语义与图像预测的梯度信号，形成双向增强。

03 实验 Experiments

在三个基准上评估：LIBERO（仿真，in-domain）、Franka 真实机器人（3 个任务）、RoboTwin2.0（仿真，out-of-domain，8 个双臂任务）。基线方法包括 π₀、UniVLA、OpenVLA、OpenVLA-OFT。

主要结果对比

方法	LIBERO 平均	Franka 真实	RoboTwin2.0
OpenVLA	76.5%	—	—
OpenVLA-OFT	—	58.6%	23.13%
π₀	94.2%	70.0%	48.13%
UniVLA	95.5%	—	—
MM-ACT（本文）	96.3%	72.0%	52.38%

MM-ACT 在 RoboTwin 未见环境中的图像生成可视化 — 图 4：MM-ACT 在 RoboTwin 未见（unseen）环境中生成的场景图像可视化。模型能够在新场景下合理预测未来帧，体现出跨模态学习赋予的泛化能力。图像质量：PSNR 14.23、SSIM 0.80、LPIPS 0.09。

LIBERO 子任务细节

LIBERO 子集	MM-ACT 成功率
LIBERO-Spatial	97.8%
LIBERO-Object	99.4%
LIBERO-Goal	94.8%
LIBERO-Long	88.0%
平均	96.3%

消融实验 Ablations

作者从三个维度进行消融（均在 RoboTwin2.0 上测试）：

动作解码策略：chunk size=16 时，re-mask PD 达到 56.75%（+13.00% vs one-step PD 43.75%），但推理时间为 1.06s vs 0.23s；最终选择 one-step PD 以兼顾速度与精度。
文本/图像解码策略：图像使用 re-mask 解码可带来 +5.62%（48.75% vs 43.13%）增益；文本使用 re-mask 带来 +3.37%（46.50%）。
机器人状态输入：加入 robot state 对图像模态有 +8.37%（51.50%）增益，但对文本模态略有负面影响。最终方案结合图像+状态输入达到 52.38%。

Stage 2 引入动作模态后，文本生成精度从 81.5% 下降至 68.7%，作者认为"text modality is prone to overfitting with increased training steps"，而图像模态则持续受益于跨模态学习。

04 局限性 Limitations

注意：原论文无独立的 Limitations 章节。以下各点：标注为「论文已陈述」者来自正文明确描述；标注为「推断」者为基于方法设计的合理推断。

文本生成精度在 Stage 2 退化（论文已陈述）

加入动作模态训练后，文本任务规划准确率从 81.5% 降至 68.7%。作者解释为"text modality is prone to overfitting with increased training steps"，但并未给出针对性的缓解方案。这意味着模型在语言理解与动作执行之间存在训练权衡。

re-mask 解码的速度-精度权衡（论文已陈述）

消融实验表明，chunk size=16 时 re-mask PD 比 one-step PD 精度高 13%，但推理时间从 0.23s 增至 1.06s，无法满足 40 Hz 实时控制需求。当前方案选择 one-step PD 牺牲精度换速度，高频控制场景下的最优解码策略仍待探索。

RoboTwin2.0 整体成功率偏低（推断）

最优配置下 RoboTwin2.0 的成功率为 52.38%，在 8 个双臂任务中仍有近半数失败。双臂协同操作的难度远超单臂场景，当前框架对双臂时序协调建模的能力有待进一步验证。

图像生成质量（推断）

Stage 2 图像质量指标 PSNR 14.23、SSIM 0.80、LPIPS 0.09，PSNR 数值相对偏低，说明生成图像与真实未来帧之间仍存在较大像素级差异，影响其作为预测辅助信号的可靠性。