arXiv 2025 · cs.CV · cs.RO

MM-ACT: Learn from Multimodal Parallel Generation to Act

统一文本、图像、动作的 VLA 模型,通过跨模态并行生成提升机器人操控能力
Haotian Liang, Xinyi Chen, Bin Wang, Mingkang Chen, Yitian Liu, Yuhao Zhang, Zanxin Chen, Tianshuo Yang, Yilun Chen, Jiangmiao Pang, Dong Liu, Xiaokang Yang, Yao Mu, Wenqi Shao, Ping Luo  ·  Shanghai AI Lab · SJTU · HKU · USTC · Fudan · Zhejiang Univ.

MM-ACT 将文本、图像与动作纳入共享 token 空间,用 Context-Shared Multimodal Learning 统一训练三种模态的生成,动作解码只需一步并行推断,真实机器人操控成功率达 72.0%,超越 π₀(70.0%)。

arXiv: 2512.00975 提交: 2025-11-30 LIBERO 96.3% · Franka 72.0% · RoboTwin 52.38% 📄 arXiv:2512.00975 PDF
Vision-Language-Action 多模态并行生成 parallel decoding 机器人操作 context-shared learning imitation learning 双臂操作 re-mask decoding

01 动机 Motivation

通用机器人策略需要同时具备语义理解(任务规划)与环境交互(动作预测)两种能力,但现有方法往往将二者分离处理,难以充分利用多模态信号之间的互补关系。

"A generalist robotic policy needs both semantic understanding for task planning and the ability to interact with the environment through predictive capabilities."
不同 VLA 范式对比
图 1:不同统一 VLA 范式对比。MM-ACT(右)将文本、图像与动作三种模态统一在共享 token 空间中,通过 Context-Shared Multimodal Learning 同时监督三种模态的生成,而早期方法(左、中)仅支持单一或两种模态的联合训练。
96.3%LIBERO 平均成功率
72.0%Franka 真实机器人成功率
52.38%RoboTwin2.0 双臂任务成功率
+9.25%跨模态学习带来的额外增益

现有方法的不足

02 方法 Method

MM-ACT 将文本 token、图像 token 与动作 token 编码进同一序列,通过 re-mask 并行解码生成文本/图像,通过一步并行解码生成动作,并用 Context-Shared Multimodal Learning 在共享上下文下统一监督三种模态。

MM-ACT 整体架构
图 2:MM-ACT 架构。输入由多视角观测图像、任务语言指令、文本描述及机器人状态(可选)组成的 modality-interleaved token sequence;通过 bidirectional attention 的 masked token prediction,同时预测文本、图像与动作三种模态的 token。

统一 Token 空间

模型为文本、图像、动作分别配置模态专属的 tokenizer,将三种模态映射到同一维度的 token 序列。推理时,所有已知信息(观测图像、语言指令、文本描述、机器人状态)拼接为共享上下文,掩码位置对应待生成的目标 token。

Re-mask 并行解码(文本与图像)

对于文本和图像生成,MM-ACT 采用 re-mask parallel decoding 策略:每个解码步骤中,模型并行预测所有掩码位置的 token,然后依置信度保留高分 token,低置信度 token 重新被掩码(re-masked)并在下一步重新预测。文本使用线性调度;图像使用余弦调度控制每步揭示的 token 比例。

一步并行解码(动作)

动作生成采用 one-step parallel decoding,即"predict all masked tokens simultaneously",单次前向传播即可输出完整动作 chunk,支持 40 Hz 的实时控制频率,推理耗时仅约 0.22–0.23 秒(chunk size 8–16)。

MM-ACT 训练流程
图 3:两阶段训练流程。Stage 1 仅训练文本与图像生成(固定动作模态权重为 0);Stage 2 引入动作生成,辅助模态权重约为 0.05–0.1。共享上下文(shared context)在两阶段均保持一致,确保跨模态信号互相增强。

Context-Shared Multimodal Learning

MM-ACT 的核心训练范式:三种模态的生成任务共享完全相同的输入上下文,使用统一的 cross-entropy loss 同时监督文本、图像与动作的 token 预测。这使模型在学习动作时能同时接收文本语义与图像预测的梯度信号,形成双向增强。

03 实验 Experiments

在三个基准上评估:LIBERO(仿真,in-domain)、Franka 真实机器人(3 个任务)、RoboTwin2.0(仿真,out-of-domain,8 个双臂任务)。基线方法包括 π₀、UniVLA、OpenVLA、OpenVLA-OFT。

主要结果对比

方法LIBERO 平均Franka 真实RoboTwin2.0
OpenVLA76.5%
OpenVLA-OFT58.6%23.13%
π₀94.2%70.0%48.13%
UniVLA95.5%
MM-ACT(本文)96.3%72.0%52.38%
MM-ACT 在 RoboTwin 未见环境中的图像生成可视化
图 4:MM-ACT 在 RoboTwin 未见(unseen)环境中生成的场景图像可视化。模型能够在新场景下合理预测未来帧,体现出跨模态学习赋予的泛化能力。图像质量:PSNR 14.23、SSIM 0.80、LPIPS 0.09。

LIBERO 子任务细节

LIBERO 子集MM-ACT 成功率
LIBERO-Spatial97.8%
LIBERO-Object99.4%
LIBERO-Goal94.8%
LIBERO-Long88.0%
平均96.3%

消融实验 Ablations

作者从三个维度进行消融(均在 RoboTwin2.0 上测试):

Stage 2 引入动作模态后,文本生成精度从 81.5% 下降至 68.7%,作者认为"text modality is prone to overfitting with increased training steps",而图像模态则持续受益于跨模态学习。

04 局限性 Limitations

注意:原论文无独立的 Limitations 章节。以下各点:标注为「论文已陈述」者来自正文明确描述;标注为「推断」者为基于方法设计的合理推断。
文本生成精度在 Stage 2 退化(论文已陈述)

加入动作模态训练后,文本任务规划准确率从 81.5% 降至 68.7%。作者解释为"text modality is prone to overfitting with increased training steps",但并未给出针对性的缓解方案。这意味着模型在语言理解与动作执行之间存在训练权衡。

re-mask 解码的速度-精度权衡(论文已陈述)

消融实验表明,chunk size=16 时 re-mask PD 比 one-step PD 精度高 13%,但推理时间从 0.23s 增至 1.06s,无法满足 40 Hz 实时控制需求。当前方案选择 one-step PD 牺牲精度换速度,高频控制场景下的最优解码策略仍待探索。

RoboTwin2.0 整体成功率偏低(推断)

最优配置下 RoboTwin2.0 的成功率为 52.38%,在 8 个双臂任务中仍有近半数失败。双臂协同操作的难度远超单臂场景,当前框架对双臂时序协调建模的能力有待进一步验证。

图像生成质量(推断)

Stage 2 图像质量指标 PSNR 14.23、SSIM 0.80、LPIPS 0.09,PSNR 数值相对偏低,说明生成图像与真实未来帧之间仍存在较大像素级差异,影响其作为预测辅助信号的可靠性。