Motus: A Unified Latent Action World Model

01 动机

具身 AI 领域长期存在"能力碎片化"问题：VLA（视觉-语言-动作）模型、世界模型（WM）、逆动力学模型（IDM）、视频生成（VGM）、视频-动作联合预测五类能力分属不同模型，难以相互增益。此外，绝大多数视频数据缺乏动作标注，而机器人平台之间动作空间各异，导致大规模跨具身预训练十分困难。

"We propose Motus, a unified world model framework that integrates five key embodied AI capabilities—VLA, WM, IDM, VGM, and video-action joint prediction—into a single model via a Mixture-of-Transformers (MoT) architecture."

Motus 总体架构 — **图 1：Motus 整体框架。**三条专家支路（视频生成专家、动作专家、视觉语言理解专家）通过 Tri-model Joint Attention 共享运动信息。输入为图像序列与语言指令，输出同时覆盖视频帧预测与机器人动作序列（a_t…a_t+k），并通过 latent action z_t 连接两者。

88.66%RoboTwin 2.0 仿真平均成功率（clean）

+15%超越 X-VLA（仿真）

+45%超越 π₀.₅（仿真）

+11~48%真实机器人平台提升幅度

现有方法的核心痛点有两个：（1）如何在单一架构中统合多模态生成能力，同时不牺牲各专项功能；（2）如何在动作标注稀缺、具身差异显著的情况下利用海量异构视频数据。Motus 通过 optical flow 作为"通用运动代理"来绕过动作标注缺失的问题，用深度卷积变分自编码器（DC-AE）将光流压缩为 14 维的 latent action 向量，恰好匹配主流机器人控制空间维度，从而实现跨具身迁移。

02 方法

Motus 的核心由三部分组成：Mixture-of-Transformers 多专家架构、基于 optical flow 的 Latent Action VAE，以及 Action-Dense Video-Sparse 预测策略，配合六层具身数据金字塔完成三阶段训练。

Mixture-of-Transformers（MoT）架构

Motus 集成三个专家模块：视频生成专家基于 Wan 2.2 5B（参数量 5.00B），视觉语言理解专家采用 Qwen3-VL-2B（2.13B），动作专家为自定义 Transformer 块（641.5M），理解专家（Understanding Expert）占 253.5M，总参数量约 8B。三者通过 Tri-model Joint Attention 机制共享 token，在同一前向传播中联合建模视频帧与动作序列。

Action-Dense Video-Sparse 预测 — **图 2：Action-Dense Video-Sparse Prediction。**动作序列以较高频率采样，视频帧以较低频率采样，避免视频 token 过多导致动作预测过拟合，同时维持时序对齐。

Latent Action VAE（基于 Optical Flow）

传统 VLA 依赖真实动作标注，而绝大多数网络视频无此标注。Motus 用 optical flow 作为运动代理：用 DC-AE（深度卷积变分自编码器）将相邻帧间光流编码为 14 维 latent action 向量 z_t，该维度恰好与主流机器人（如 Aloha-2）的控制空间对齐。训练时 90% 为无标注重建损失，10% 为有标注监督，使模型在海量未标注视频上高效预训练。

**图 3：Latent Action VAE 架构（DC-AE）。**将连续帧对的 optical flow 编码为 14 维 latent vector，并通过轻量解码器重建。有标注样本中 latent action 直接与真实动作对齐，实现有监督微调。

六层具身数据金字塔与三阶段训练

训练数据按质量和规模分为六层金字塔：从底层海量网络视频（最低质量、最高数量），逐层递进至顶层目标机器人示范数据（最高质量、最少数量）。三阶段训练流程：

Stage 1（VGM 适配）：在多机器人和人类视频上微调视频生成专家，约 ~8000 GPU 小时。
Stage 2（全模型预训练）：引入 latent action，联合训练所有专家，约 ~10000 GPU 小时。
Stage 3（目标机器人微调）：在目标平台示范数据上端到端精调，约 ~400 GPU 小时。

**图 4：六层具身数据金字塔。**从网络规模视频（底层）到目标机器人示范（顶层），数量递减、质量递增，覆盖人类行为、多机器人操作和目标平台数据。

03 实验

实验覆盖仿真基准（RoboTwin 2.0、LIBERO-Long、VLABench）和两个真实机器人平台（AC-One 和 Agilex-Aloha-2），基线包括 X-VLA 和 π₀.₅（Pi0.5）。

仿真基准（RoboTwin 2.0）

方法	平均成功率（clean）	平均成功率（randomized）
π₀.₅	42.98%	43.84%
X-VLA	72.80%	72.84%
Motus（ours）	88.66%	87.02%

Motus 在 RoboTwin 2.0 的 50+ 任务上平均成功率 88.66%（clean）/ 87.02%（randomized），分别比 X-VLA 提升 +15%，比 π₀.₅ 提升 +45%。

其他基准

基准	π₀.₅	X-VLA	Motus（ours）
LIBERO-Long	—	97.6（SoTA）	97.6
VLABench In-Dist.	0.43	—	0.48
VLABench Cross-Cat.	0.22	—	0.25

真实机器人实验

平台	π₀.₅ 平均	Motus 平均	提升
AC-One	14.79%	63.22%	+48%
Agilex-Aloha-2	48.60%	59.30%	+11%

典型任务成功率：Place Cube into Plate（AC-One）100%、Brew Coffee（AC-One）62%、Get Water from Dispenser（Agilex）96%。

逆动力学模型（IDM）性能

Latent Action VAE 在动作预测上明显优于基线：Motus action MSE 0.014，ResNet18+MLP 0.044，DINOv2+MLP 0.122。

视频生成质量（世界模型模式）

平台	FID ↓	FVD ↓	SSIM ↑
Agilex-Aloha-2	9.4571	49.2848	0.88618
AC-One	12.9609	73.1325	0.84605

真实机器人任务可视化 — **图 5：真实世界任务定义与可视化。**涵盖 fold towel、brew coffee、grind beans、pour water、keyboard interaction、bread placement 等多样操作任务，在两个机器人平台（AC-One 和 Agilex-Aloha-2）上测试。

消融实验

消融结果表明，Stage 1（VGM 适配）和完整的三阶段预训练均对最终性能有显著贡献，移除预训练后性能大幅下降，验证了 latent action 共享运动先验的有效性。

04 局限性

Note: 以下局限性部分源自论文结论与讨论章节的明确陈述（stated），部分为从设计推断（inferred）。

高昂的训练计算成本（stated）

三阶段训练总计约 ~18400 GPU 小时（Stage 1 ~8000 + Stage 2 ~10000 + Stage 3 ~400），对大多数研究团队而言门槛极高，限制了开放复现与迭代速度。

通用运动先验仍处于探索阶段（stated）

论文指出"universal motion priors"是未来工作方向，当前 optical flow 压缩为 14 维 latent action 的做法依赖于目标机器人控制空间恰好与该维度匹配，对控制维度差异较大的新型具身形态泛化能力有待验证。

互联网规模视频预训练尚未充分利用（stated）

论文提到将"internet-scale video pretraining"列为未来工作，说明当前数据规模和多样性仍存在天花板，距离真正通用的具身智能尚有距离。

跨具身泛化依赖动作空间对齐（inferred）

Latent action 维度（14 维）为针对特定机器人平台设计的，若目标平台动作空间维度差异显著，则需重新设计 DC-AE 或额外适配，通用性受限。