机器人 · Robotics · arXiv 2025

Motus: A Unified Latent Action World Model

用统一框架整合视频生成、动作预测与语言理解的具身智能世界模型
Hongzhe Bi, Hengkai Tan, Shenghao Xie, Zeyuan Wang, Shuhe Huang, Haitian Liu, Ruowen Zhao, Yao Feng, Chendong Xiang, Yinze Rong, Hongyan Zhao, Hanyu Liu, Zhizhong Su, Lei Ma, Hang Su, Jun Zhu  ·  清华大学等

Motus 提出了一个统一的 Latent Action 世界模型框架,通过 Mixture-of-Transformers(MoT)架构将视频生成专家、动作预测专家和视觉语言理解专家融合为一体,借助 optical flow 作为跨具身的通用运动先验,在无标注视频上大规模预训练,并在多机器人平台上实现了显著的性能提升。

8B 参数 RoboTwin 2.0 · 50+ 任务 arXiv · Dec 2025 📄 arXiv:2512.13030 PDF
世界模型 VLA latent action optical flow Mixture-of-Transformers video generation 机器人操作 具身智能

01 动机

具身 AI 领域长期存在"能力碎片化"问题:VLA(视觉-语言-动作)模型、世界模型(WM)、逆动力学模型(IDM)、视频生成(VGM)、视频-动作联合预测五类能力分属不同模型,难以相互增益。此外,绝大多数视频数据缺乏动作标注,而机器人平台之间动作空间各异,导致大规模跨具身预训练十分困难。

"We propose Motus, a unified world model framework that integrates five key embodied AI capabilities—VLA, WM, IDM, VGM, and video-action joint prediction—into a single model via a Mixture-of-Transformers (MoT) architecture."
Motus 总体架构
图 1:Motus 整体框架。三条专家支路(视频生成专家、动作专家、视觉语言理解专家)通过 Tri-model Joint Attention 共享运动信息。输入为图像序列与语言指令,输出同时覆盖视频帧预测与机器人动作序列(at…at+k),并通过 latent action zt 连接两者。
88.66%RoboTwin 2.0 仿真平均成功率(clean)
+15%超越 X-VLA(仿真)
+45%超越 π₀.₅(仿真)
+11~48%真实机器人平台提升幅度

现有方法的核心痛点有两个:(1)如何在单一架构中统合多模态生成能力,同时不牺牲各专项功能;(2)如何在动作标注稀缺、具身差异显著的情况下利用海量异构视频数据。Motus 通过 optical flow 作为"通用运动代理"来绕过动作标注缺失的问题,用深度卷积变分自编码器(DC-AE)将光流压缩为 14 维的 latent action 向量,恰好匹配主流机器人控制空间维度,从而实现跨具身迁移。

02 方法

Motus 的核心由三部分组成:Mixture-of-Transformers 多专家架构、基于 optical flow 的 Latent Action VAE,以及 Action-Dense Video-Sparse 预测策略,配合六层具身数据金字塔完成三阶段训练。

Mixture-of-Transformers(MoT)架构

Motus 集成三个专家模块:视频生成专家基于 Wan 2.2 5B(参数量 5.00B),视觉语言理解专家采用 Qwen3-VL-2B(2.13B),动作专家为自定义 Transformer 块(641.5M),理解专家(Understanding Expert)占 253.5M,总参数量约 8B。三者通过 Tri-model Joint Attention 机制共享 token,在同一前向传播中联合建模视频帧与动作序列。

Action-Dense Video-Sparse 预测
图 2:Action-Dense Video-Sparse Prediction。动作序列以较高频率采样,视频帧以较低频率采样,避免视频 token 过多导致动作预测过拟合,同时维持时序对齐。

Latent Action VAE(基于 Optical Flow)

传统 VLA 依赖真实动作标注,而绝大多数网络视频无此标注。Motus 用 optical flow 作为运动代理:用 DC-AE(深度卷积变分自编码器)将相邻帧间光流编码为 14 维 latent action 向量 zt,该维度恰好与主流机器人(如 Aloha-2)的控制空间对齐。训练时 90% 为无标注重建损失,10% 为有标注监督,使模型在海量未标注视频上高效预训练。

Latent Action VAE 架构
图 3:Latent Action VAE 架构(DC-AE)。将连续帧对的 optical flow 编码为 14 维 latent vector,并通过轻量解码器重建。有标注样本中 latent action 直接与真实动作对齐,实现有监督微调。

六层具身数据金字塔与三阶段训练

训练数据按质量和规模分为六层金字塔:从底层海量网络视频(最低质量、最高数量),逐层递进至顶层目标机器人示范数据(最高质量、最少数量)。三阶段训练流程:

具身数据金字塔
图 4:六层具身数据金字塔。从网络规模视频(底层)到目标机器人示范(顶层),数量递减、质量递增,覆盖人类行为、多机器人操作和目标平台数据。

03 实验

实验覆盖仿真基准(RoboTwin 2.0、LIBERO-Long、VLABench)和两个真实机器人平台(AC-One 和 Agilex-Aloha-2),基线包括 X-VLA 和 π₀.₅(Pi0.5)。

仿真基准(RoboTwin 2.0)

方法平均成功率(clean)平均成功率(randomized)
π₀.₅42.98%43.84%
X-VLA72.80%72.84%
Motus(ours)88.66%87.02%

Motus 在 RoboTwin 2.0 的 50+ 任务上平均成功率 88.66%(clean)/ 87.02%(randomized),分别比 X-VLA 提升 +15%,比 π₀.₅ 提升 +45%

其他基准

基准π₀.₅X-VLAMotus(ours)
LIBERO-Long97.6(SoTA)97.6
VLABench In-Dist.0.430.48
VLABench Cross-Cat.0.220.25

真实机器人实验

平台π₀.₅ 平均Motus 平均提升
AC-One14.79%63.22%+48%
Agilex-Aloha-248.60%59.30%+11%

典型任务成功率:Place Cube into Plate(AC-One)100%、Brew Coffee(AC-One)62%、Get Water from Dispenser(Agilex)96%

逆动力学模型(IDM)性能

Latent Action VAE 在动作预测上明显优于基线:Motus action MSE 0.014,ResNet18+MLP 0.044,DINOv2+MLP 0.122

视频生成质量(世界模型模式)

平台FID ↓FVD ↓SSIM ↑
Agilex-Aloha-29.457149.28480.88618
AC-One12.960973.13250.84605
真实机器人任务可视化
图 5:真实世界任务定义与可视化。涵盖 fold towel、brew coffee、grind beans、pour water、keyboard interaction、bread placement 等多样操作任务,在两个机器人平台(AC-One 和 Agilex-Aloha-2)上测试。

消融实验

消融实验结果
图 6:消融实验(RoboTwin 2.0 randomized setting)。对比完整 Motus、仅 Stage 1 预训练、无预训练三种变体,验证多阶段训练和 latent action 预训练的贡献。

消融结果表明,Stage 1(VGM 适配)和完整的三阶段预训练均对最终性能有显著贡献,移除预训练后性能大幅下降,验证了 latent action 共享运动先验的有效性。

04 局限性

Note: 以下局限性部分源自论文结论与讨论章节的明确陈述(stated),部分为从设计推断(inferred)。
高昂的训练计算成本(stated)

三阶段训练总计约 ~18400 GPU 小时(Stage 1 ~8000 + Stage 2 ~10000 + Stage 3 ~400),对大多数研究团队而言门槛极高,限制了开放复现与迭代速度。

通用运动先验仍处于探索阶段(stated)

论文指出"universal motion priors"是未来工作方向,当前 optical flow 压缩为 14 维 latent action 的做法依赖于目标机器人控制空间恰好与该维度匹配,对控制维度差异较大的新型具身形态泛化能力有待验证。

互联网规模视频预训练尚未充分利用(stated)

论文提到将"internet-scale video pretraining"列为未来工作,说明当前数据规模和多样性仍存在天花板,距离真正通用的具身智能尚有距离。

跨具身泛化依赖动作空间对齐(inferred)

Latent action 维度(14 维)为针对特定机器人平台设计的,若目标平台动作空间维度差异显著,则需重新设计 DC-AE 或额外适配,通用性受限。