机器人操作 · VLA · 2026

MolmoAct2

面向真实世界部署的动作推理模型
Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan 等 · Allen Institute for AI & University of Washington

MolmoAct2 是一个完全开源的 Vision-Language-Action (VLA) 模型,围绕五个维度全面超越前作 MolmoAct:更强的具身推理 VLM 骨干 Molmo2-ER、三个新的机器人数据集(含迄今最大的开源双臂数据集 720 小时)、开源 action tokenizer、全新 VLA 架构(per-layer KV conditioning),以及自适应深度推理变体 MolmoAct2-Think,在 7 个仿真与真实世界基准上全面领先 π₀.₅ 等强基线。

arXiv 2025年5月 Allen Institute for AI 完全开源:权重 + 数据 + 代码 📄 arXiv:2605.02881 GitHub: allenai/molmoact2
Vision-Language-Action VLA 机器人操作 action reasoning flow matching embodied reasoning 双臂操作 MolmoAct2

01 动机

当前的机器人基础模型距离真实部署仍有差距:顶级模型是闭源的;开源替代方案受限于昂贵硬件;引入推理的策略推理延迟过高;微调后的成功率仍低于可靠使用的阈值。

"Frontier models are closed; open-weight alternatives are tied to expensive hardware; reasoning-augmented policies pay prohibitive latency for their grounding; and fine-tuned success rates remain below the threshold for dependable use."

现有推理增强 VLA(如 MolmoAct、TraceVLA)通过预测深度 token、目标图像或轨迹来提升动作质量,但每步生成大量 token 导致推理延迟过高,无法支持闭环控制。同时,开源机器人数据集分散、质量参差不齐,难以支撑跨具身的多任务学习。

MolmoAct2 系统总览
MolmoAct2 系统总览。左:从低到中价位三类平台收集、过滤和整理的高质量机器人数据集;中:MolmoAct2 及其自适应深度推理变体 MolmoAct2-Think,通过 per-layer KV conditioning 将 VLM 骨干与 flow-matching 动作专家耦合;右:模型开箱即用地部署于双臂 YAM、SO-100/101 以及 DROID Franka,并适应洗碗、整理、湿实验室自动化、倒茶等现实任务。
7仿真 + 真实世界基准(最广泛的开源 VLA 评估)
720hMolmoAct2-BimanualYAM 双臂遥操作数据(迄今最大开源双臂数据集)
63.8%Molmo2-ER 在 13 个具身推理基准上的平均分(超越 GPT-5 和 Gemini Robotics ER-1.5)
98.1%MolmoAct2-Think 在 LIBERO 全套上的平均成功率(当前最优)

02 方法

MolmoAct2 在五个维度上推进了前作 MolmoAct:(1)具身推理 VLM 骨干 Molmo2-ER;(2)三个新的开源机器人数据集;(3)开源多具身 action tokenizer OpenFAST;(4)基于 per-layer KV conditioning 的新 VLA 架构;(5)自适应深度推理变体 MolmoAct2-Think。训练分为三个阶段:预训练、后训练(post-training)和部署微调。

Molmo2-ER:具身推理 VLM 骨干

通用 VLM 很少训练机器人策略所需的技能——度量距离、自由空间、跨视角物体跟踪、场景几何。为此,MolmoAct2 基于 Molmo2-4B 进行 specialize-then-rehearse 两阶段训练:

Molmo2-ER 在 13 个具身推理基准上平均得分 63.8%,超越其基础模型 Molmo2 17 个百分点,并在 9/13 个基准上超越 Gemini Robotics ER-1.5 Thinking 和 GPT-5。

MolmoAct2-OpenFAST:开源 Action Tokenizer

现有 action tokenizer 要么闭源,要么与特定动作空间绑定。MolmoAct2-OpenFAST 是遵循 FAST 方案的开源实现,在五类具身平台的数百万条轨迹上训练,可将 1 秒钟的 32 维连续动作压缩为紧凑的离散序列,支持跨具身的统一 next-token 训练目标。

VLA 架构:Per-layer KV Conditioning

MolmoAct2 采用三阶段流水线:预训练阶段将 Molmo2-ER 适配为离散自回归机器人策略;后训练阶段接入 flow-matching 连续动作专家(DiT 风格 transformer),并通过 per-layer KV conditioning 将 VLM 与动作专家耦合——即动作专家的每一层从对应的 VLM 层获取 Key-Value 状态,而非仅使用隐状态。消融实验表明,per-layer KV conditioning 在 LIBERO 全套平均得分 95.9%,优于隐状态条件化(94.0%)和 per-head KV 变体(94.8%)。部署微调阶段在具体具身平台、环境和任务上高效适配。

MolmoAct2-Think:自适应深度推理

MolmoAct2-Think 自适应深度推理概览
MolmoAct2-Think 概览。在动作生成前,模型预测紧凑的离散深度表示(10×10 网格,128 个深度码值),并通过 per-layer KV conditioning 将其输入动作专家。自适应深度推理:对静态区域复用缓存的深度码,仅对 RGB 发生变化的区域重新预测深度 token,使推理代价与场景变化量成正比而非固定 100 token 的全量预测。

MolmoAct2-Think 在推理时维护 10×10 深度码缓冲区,通过余弦相似度(阈值 0.996)逐 patch 比较相邻帧,标记变化区域并选择性重新解码深度 token。这利用了机器人轨迹的时序冗余性,在保留几何空间感知的同时大幅降低延迟。精调时额外引入:10% 深度 token 噪声注入(应对推理时深度不完美预测)和可学习的 per-layer depth gate(从 bias=-4 初始化,逐步学习各层对深度前缀的权重)。

03 实验

在 7 个仿真和真实世界基准上开展了迄今最广泛的开源 VLA 评估,涵盖 Molmo2-ER 具身推理能力评估、开箱即用部署、高效微调三个维度。

LIBERO 基准(微调后)

模型SpatialObjectGoalLong平均
TraceVLA84.6%85.2%75.1%54.1%74.8%
π₀96.8%98.8%95.8%85.2%94.2%
GR00T N1.797.7%97.5%98.5%94.4%97.0%
π₀.₅98.8%98.2%98.0%92.4%96.9%
MolmoAct297.8%100.0%97.8%93.2%97.2%
MolmoAct2-Think98.8%99.8%98.5%95.4%98.1%

MolmoSpaces 开箱即用评估(Franka DROID)

模型PickPick & PlaceOpenClose平均
π₀-DROID16.212.511.053.123.2
π₀.₅-DROID36.413.622.765.134.5
MolmoAct2-DROID43.726.79.570.837.7

真实世界开箱即用评估(DROID 平台,5 项任务,各 15 次试验)

模型Apple on platePipette in trayRed cube in tapeKnife in boxObjects in bowl平均
π₀.₅-DROID66.7%33.3%53.3%26.7%46.2%45.2%
MolmoBot86.7%53.3%33.3%40.0%28.6%48.4%
MolmoAct2-DROID100.0%86.7%93.3%93.3%62.0%87.1%

真实世界微调评估(双臂 YAM,8 项任务,各 50 次试验)

MolmoAct2 平均成功率 50.1%,超越第二名 OpenVLA-OFT 15 个百分点,在 8 项任务中 7 项排名第一,覆盖静态实验室、厨房、湿实验室、移动操作等场景。

MolmoAct2 微调评估
MolmoAct2 高效微调综合评估。在 8 项真实世界任务(从化学家准备移液管到将玩具放回货架)上进行系统评估。MolmoAct2 以超出第二名 15% 的大幅优势领先 4 个强基线。

RoboEval 基准(轨迹质量)

RoboEval 基准结果
RoboEval 基准性能对比。(A)8 项操作任务的逐任务成功率(%),MolmoAct2 在大多数任务上领先,在 Pack Box、Rotate Valve 等长时程任务上尤为突出。(B)跨行为和结果指标的归一化性能雷达图(CT=完成时间,TL=轨迹长度,JPL=关节路径长度,CPL=笛卡尔路径长度,CJ=笛卡尔抖动,JJ=关节抖动,SC=自碰撞,SL=滑移次数)。MolmoAct2 全面领先,成功率 44.3%(超越 π₀.₅ 的 3.8%),且轨迹更短、更稳定。

鲁棒性评估(分布外扰动)

模型Spatial Var.LightingLanguageDistractor总体
π₀.₅15.0033.7026.1533.2027.01
OpenVLA-OFT13.7546.2551.2548.3039.89
MolmoAct2-Think26.2562.0560.3554.1050.69

MolmoAct2-Think 在空间变化、光照、语言措辞变体和视觉干扰四类 OOD 扰动下,总体成功率 50.69%,超越第二名 OpenVLA-OFT 10.80 个百分点

推理速度

推理控制率优化
缓存与 CUDA Graph 优化后的推理控制率。控制率 = 动作 horizon / 端到端延迟;使用 horizon=10,在单张 H100 上于 LIBERO 测量。MolmoAct2 经 CUDA Graph 优化达到 55.79 Hz(原始的 2.42×),MolmoAct2-Think 达到 12.71 Hz(1.58×)。

消融实验

04 局限性

Note:以下局限性部分为论文正文中明确陈述(labeled: stated),部分从模型设计中推断(labeled: inferred)。论文未设独立局限性章节。
Open 类任务性能较弱(stated)

在 MolmoSpaces 基准的 Open(关节体交互)类别上,MolmoAct2-DROID 得分仅 9.5,明显低于 π₀.₅-DROID 的 22.7,表明"articulated-object interaction remains a direction for further improvement"(论文原文)。

空间泛化仍是薄弱项(stated)

在 OOD 鲁棒性评估中,MolmoAct2 在 Spatial Variance(空间位置超出训练分布)类别下的绝对成功率仅 26.25%,是四类扰动中最低的,表明细粒度空间泛化仍有提升空间(论文指出 "room for improvement on fine-grained spatial generalization")。

MolmoAct2-Think 的 CUDA Graph 加速收益有限(stated)

MolmoAct2-Think 的自适应深度解码阶段因其自回归特性(序列依赖、变长执行),CUDA Graph 加速仅带来 1.58× 提升,远低于 MolmoAct2 的 2.42×。高延迟(约 12.71 Hz)相对于高频控制需求仍有差距。

评估平台多样性仍有限(inferred)

尽管评估覆盖 DROID Franka、SO-100/101、双臂 YAM 三类平台,但均为桌面操作类任务,对移动底盘、人形机器人等更多具身形式的泛化能力尚未验证(从论文范围推断)。

深度估计依赖 Depth Anything V2(inferred)

MolmoAct2-Think 的深度 token 由 Depth Anything V2 单目估计生成,在反光表面、透明物体或极端光照等场景下深度估计可能失准,进而影响自适应深度推理质量(从数据处理流程推断)。