ICCV 2025 · 机器人操控 · 视频预训练

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation from Videos

用隐运动 token 架起视频生成预训练与机器人精准控制的桥梁
Yi Chen · Yuying Ge · Weiliang Tang · Yizhuo Li · Yixiao Ge · Mingyu Ding · Ying Shan · Xihui Liu
香港大学  |  腾讯 ARC Lab  |  香港中文大学  |  UC Berkeley

Moto 提出将视频帧对压缩为离散的"隐运动 token",在大规模无标注视频上以自回归方式预训练 Moto-GPT,再通过 co-fine-tuning 迁移到机器人动作预测。仅 98M 参数,在 SIMPLER 基准上达到 61.4% 成功率,媲美参数量达 55B 的 RT-2-X(60.7%)。

ICCV 2025 98M 参数 SIMPLER 61.4% 📄 arXiv:2412.04445 🌐 Project Page
latent motion token robot manipulation 视频预训练 VQ-VAE autoregressive prediction imitation learning cross-embodiment 运动先验 co-fine-tuning GPT

01 动机

机器人操控学习面临两大核心挑战:其一,带动作标注的机器人演示数据稀缺且采集昂贵;其二,现有视觉-语言-动作(VLA)模型在视频预训练阶段与低层动作之间缺乏有效桥梁,预训练收益难以充分转化为操控能力。视频中蕴含丰富的运动语义,却因动作标签的硬件依赖性而被大量浪费。

"effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic."
Moto 总览:三阶段流程
图 1 · Moto 三阶段流程概览。 第一阶段训练 Latent Motion Tokenizer(基于 VQ-VAE),将连续帧对压缩为离散隐运动 token; 第二阶段以自回归预测的方式在无标注视频上预训练 Moto-GPT,学习视觉运动先验; 第三阶段通过 co-fine-tuning 加入 action query token,在带标注的机器人演示上同时优化运动预测与动作预测。
61.4%SIMPLER 整体成功率(vs RT-2-X 60.7%,参数量仅 98M vs 55B)
3.10CALVIN 平均任务完成链长度(vs GR-1 3.06)
60%真实机器人平均成功率(vs 无 motion token 基线 23.33%)
52.5%仅用 1% 标注数据时的 SIMPLER 成功率(vs 未预训练变体 0%)

02 方法

Moto 的核心思想是将"运动"从视频中抽象为一种与硬件无关的离散语言——隐运动 token——使 GPT 式的自回归预训练能够直接在该语言空间中学习运动先验,再以统一 token 序列驱动机器人动作预测。

Moto 详细架构
图 2 · Moto 详细架构。 左:Latent Motion Tokenizer 使用 M-Former 编码器将相邻帧对编码为连续运动嵌入,再经 VQ 量化映射为离散 token(词表大小 128);ViT 解码器负责重建后续帧以监督训练。 中:Moto-GPT 以语言指令和初始观测为条件,自回归预测后续隐运动 token 序列,目标为"maximizes the likelihood of the ground-truth latent motion token sequence given the language instruction." 右:Co-fine-tuning 阶段在 Moto-GPT 的 token 序列中插入 action query token,并接入轻量 action head 预测机器人关节指令,同时保留运动预测损失作为辅助监督。

阶段一:Latent Motion Tokenizer(基于 VQ-VAE)

给定时间步 t 的观测帧 ot 与后续帧 ot+k,M-Former 编码器将二者拼接后提取运动嵌入,经 VQ 量化得到离散隐运动 token(词表大小 128)。ViT 解码器以初始帧和运动 token 为输入重建目标帧,重建误差提供像素级监督,确保 token 携带真实运动语义而非静态外观信息。

阶段二:Moto-GPT 自回归预训练

将一段机器人(或人类)视频逐帧对量化为隐运动 token 序列后,Moto-GPT 以 GPT 架构自回归建模该序列的条件分布。预训练数据无需动作标签,只需原始视频,从而可规模化利用互联网视频或人类操作视频(实验中使用了 SSV2 数据集),学习与硬件无关的运动先验。

阶段三:Co-fine-tuning 迁移到机器人控制

在带动作标注的机器人演示数据上,将 action query token 插入 Moto-GPT 的输入序列,与运动 token 共同预测。轻量 action head 将 action query token 的隐状态映射为连续关节动作。损失函数同时包含运动 token 预测的交叉熵损失与动作预测的回归损失,运动预测起辅助正则化作用,防止预训练知识在微调中被遗忘。

隐运动 token 的可解释性
图 3 · 隐运动 token 的可解释性验证。 将同一 token 序列施加到不同初始帧上重建运动:结果表明相同 token 序列在不同场景下均产生语义一致的运动轨迹,说明 token 有效捕捉了与外观无关的运动模式。在 Something-Something v2 视频分类任务上,使用 7 个隐运动 token 块实现 79.7% 的分类准确率,接近使用完整 7 帧的 82.8%。

03 实验

实验在三个评测场景展开:SIMPLER(模拟器中的多任务操控基准)、CALVIN(长序列多步骤操控基准)、以及配备 FANUC 机械臂的真实机器人任务(抓取香蕉、合上笔记本、分解装置)。基线包括 RT-1-X、RT-2-X、Octo-Base、OpenVLA 和 GR-1 等主流方法。

SIMPLER 基准(表 2)

方法Pick Coke CanMove NearOpen/Close DrawerOverall
RT-1-X0.5670.3170.5970.534
RT-2-X(55B 参数)0.7870.7790.2500.607
Octo-Base0.1700.0420.2270.169
OpenVLA0.1630.4620.3560.248
OpenVLA (fine-tuned)0.3630.5420.2310.349
Moto w/o Motion Token0.5030.5540.3980.480
Moto(98M 参数)0.7400.6040.4310.614

CALVIN 基准(表 3)

方法T=1T=2T=3T=4T=5Avg. Length
SuSIE0.8700.6900.4900.3800.2602.69
RoboFlamingo0.8240.6190.4660.3310.2352.47
MT-R3M0.5290.2340.1050.0430.0180.93
GR-10.8540.7120.5960.4970.4013.06
Moto w/o Motion Token0.7790.5550.3800.2560.1672.14
Moto0.8970.7290.6010.4840.3863.10
真实机器人实验结果
图 4 · 真实机器人实验结果。 Moto 在三类任务(抓取香蕉 / 合上笔记本 / 分解装置)下,有无运动 token 变体的成功率对比。Moto 整体平均成功率从 23.33% 提升至 60%;在视觉干扰物条件下提升 20%,在新颖物体条件下提升 30%。

消融实验(Ablations)

核心消融在于对比"有无 motion token 预训练":在 SIMPLER 上,去除 motion token 后整体成功率从 61.4% 降至 48.0%(降幅 13.4 个百分点);在 CALVIN 上,平均链长从 3.10 降至 2.14(降幅约 45%)。此外,用 SSV2 人类视频辅助预训练(Move Near 子任务)进一步提升成功率,说明跨身形迁移的可行性。视频分类准确率消融(表 1)验证了隐运动 token 在语义层面的有效性:7 个 token 块达 79.7%,而仅使用初始帧仅有 29.2%。

04 局限性

Note: 以下局限性均为论文作者在结论/未来工作中明确陈述(stated),非推断。
Latent Motion Tokenizer 目前主要在机器人视频上训练,尚未充分利用互联网规模的人类视频

论文指出:"While we currently mainly use robot videos to train the Latent Motion Tokenizer, the learned latent motion tokens demonstrate the potential to produce consistent visual motions across varied contexts and embodiments." 将 Tokenizer 扩展到更大规模、更多样的人类操作视频是关键的未来方向,有望显著扩大可用预训练数据量。

预训练规模与微调优化仍有较大提升空间

"Future work could scale up pre-training video data and optimize fine-tuning to improve model performance on downstream robot tasks further." 当前实验受限于数据量和计算资源,预训练与微调的协同优化策略尚未充分探索。

应用场景目前集中于操控(manipulation),导航与运动控制尚未验证

"Future research could explore Moto's use in improving the robustness of reinforcement learning agents and extending its application to a wider range of robotic tasks, such as navigation and locomotion, to develop a more versatile robot action policy." Moto 作为奖励模型和环境模拟器的潜力也尚待验证。

复杂人体运动的跨身形迁移能力仍然有限

SSV2 实验初步展示了人到机器人的运动迁移潜力,但论文承认对于更复杂的人体动作(fine-grained dexterous manipulation),当前架构需要进一步改进方能实现可靠的跨身形迁移。