MolmoAct2：面向真实世界部署的动作推理模型

01 动机

当前的机器人基础模型距离真实部署仍有差距：顶级模型是闭源的；开源替代方案受限于昂贵硬件；引入推理的策略推理延迟过高；微调后的成功率仍低于可靠使用的阈值。

"Frontier models are closed; open-weight alternatives are tied to expensive hardware; reasoning-augmented policies pay prohibitive latency for their grounding; and fine-tuned success rates remain below the threshold for dependable use."

现有推理增强 VLA（如 MolmoAct、TraceVLA）通过预测深度 token、目标图像或轨迹来提升动作质量，但每步生成大量 token 导致推理延迟过高，无法支持闭环控制。同时，开源机器人数据集分散、质量参差不齐，难以支撑跨具身的多任务学习。

**MolmoAct2 系统总览。**左：从低到中价位三类平台收集、过滤和整理的高质量机器人数据集；中：MolmoAct2 及其自适应深度推理变体 MolmoAct2-Think，通过 per-layer KV conditioning 将 VLM 骨干与 flow-matching 动作专家耦合；右：模型开箱即用地部署于双臂 YAM、SO-100/101 以及 DROID Franka，并适应洗碗、整理、湿实验室自动化、倒茶等现实任务。

7仿真 + 真实世界基准（最广泛的开源 VLA 评估）

720hMolmoAct2-BimanualYAM 双臂遥操作数据（迄今最大开源双臂数据集）

63.8%Molmo2-ER 在 13 个具身推理基准上的平均分（超越 GPT-5 和 Gemini Robotics ER-1.5）

98.1%MolmoAct2-Think 在 LIBERO 全套上的平均成功率（当前最优）

02 方法

MolmoAct2 在五个维度上推进了前作 MolmoAct：（1）具身推理 VLM 骨干 Molmo2-ER；（2）三个新的开源机器人数据集；（3）开源多具身 action tokenizer OpenFAST；（4）基于 per-layer KV conditioning 的新 VLA 架构；（5）自适应深度推理变体 MolmoAct2-Think。训练分为三个阶段：预训练、后训练（post-training）和部署微调。

Molmo2-ER：具身推理 VLM 骨干

通用 VLM 很少训练机器人策略所需的技能——度量距离、自由空间、跨视角物体跟踪、场景几何。为此，MolmoAct2 基于 Molmo2-4B 进行 specialize-then-rehearse 两阶段训练：

Stage 1（具身专项化）：在 3.3M 样本的空间-具身语料上微调 20K 步，数据涵盖单图具身 QA、图像 Pointing、视频具身 QA、多图 Ego-Exo 对应推理等六个维度，辅以 8% Tulu-3 文本数据保留语言能力。
Stage 2（联合精化）：继续训练 1.5K 步，将具身语料与 Molmo2 原始多模态中训数据以 p=0.5 的比例混合，序列长度从 4,200 扩展至 16,384。

Molmo2-ER 在 13 个具身推理基准上平均得分 63.8%，超越其基础模型 Molmo2 17 个百分点，并在 9/13 个基准上超越 Gemini Robotics ER-1.5 Thinking 和 GPT-5。

MolmoAct2-OpenFAST：开源 Action Tokenizer

现有 action tokenizer 要么闭源，要么与特定动作空间绑定。MolmoAct2-OpenFAST 是遵循 FAST 方案的开源实现，在五类具身平台的数百万条轨迹上训练，可将 1 秒钟的 32 维连续动作压缩为紧凑的离散序列，支持跨具身的统一 next-token 训练目标。

VLA 架构：Per-layer KV Conditioning

MolmoAct2 采用三阶段流水线：预训练阶段将 Molmo2-ER 适配为离散自回归机器人策略；后训练阶段接入 flow-matching 连续动作专家（DiT 风格 transformer），并通过 per-layer KV conditioning 将 VLM 与动作专家耦合——即动作专家的每一层从对应的 VLM 层获取 Key-Value 状态，而非仅使用隐状态。消融实验表明，per-layer KV conditioning 在 LIBERO 全套平均得分 95.9%，优于隐状态条件化（94.0%）和 per-head KV 变体（94.8%）。部署微调阶段在具体具身平台、环境和任务上高效适配。

MolmoAct2-Think：自适应深度推理

MolmoAct2-Think 在推理时维护 10×10 深度码缓冲区，通过余弦相似度（阈值 0.996）逐 patch 比较相邻帧，标记变化区域并选择性重新解码深度 token。这利用了机器人轨迹的时序冗余性，在保留几何空间感知的同时大幅降低延迟。精调时额外引入：10% 深度 token 噪声注入（应对推理时深度不完美预测）和可学习的 per-layer depth gate（从 bias=-4 初始化，逐步学习各层对深度前缀的权重）。

03 实验

在 7 个仿真和真实世界基准上开展了迄今最广泛的开源 VLA 评估，涵盖 Molmo2-ER 具身推理能力评估、开箱即用部署、高效微调三个维度。

LIBERO 基准（微调后）

模型	Spatial	Object	Goal	Long	平均
TraceVLA	84.6%	85.2%	75.1%	54.1%	74.8%
π₀	96.8%	98.8%	95.8%	85.2%	94.2%
GR00T N1.7	97.7%	97.5%	98.5%	94.4%	97.0%
π₀.₅	98.8%	98.2%	98.0%	92.4%	96.9%
MolmoAct2	97.8%	100.0%	97.8%	93.2%	97.2%
MolmoAct2-Think	98.8%	99.8%	98.5%	95.4%	98.1%

MolmoSpaces 开箱即用评估（Franka DROID）

模型	Pick	Pick & Place	Open	Close	平均
π₀-DROID	16.2	12.5	11.0	53.1	23.2
π₀.₅-DROID	36.4	13.6	22.7	65.1	34.5
MolmoAct2-DROID	43.7	26.7	9.5	70.8	37.7

真实世界开箱即用评估（DROID 平台，5 项任务，各 15 次试验）

模型	Apple on plate	Pipette in tray	Red cube in tape	Knife in box	Objects in bowl	平均
π₀.₅-DROID	66.7%	33.3%	53.3%	26.7%	46.2%	45.2%
MolmoBot	86.7%	53.3%	33.3%	40.0%	28.6%	48.4%
MolmoAct2-DROID	100.0%	86.7%	93.3%	93.3%	62.0%	87.1%

真实世界微调评估（双臂 YAM，8 项任务，各 50 次试验）

MolmoAct2 平均成功率 50.1%，超越第二名 OpenVLA-OFT 15 个百分点，在 8 项任务中 7 项排名第一，覆盖静态实验室、厨房、湿实验室、移动操作等场景。

MolmoAct2 微调评估 — **MolmoAct2 高效微调综合评估。**在 8 项真实世界任务（从化学家准备移液管到将玩具放回货架）上进行系统评估。MolmoAct2 以超出第二名 15% 的大幅优势领先 4 个强基线。

RoboEval 基准（轨迹质量）

RoboEval 基准结果 — **RoboEval 基准性能对比。**（A）8 项操作任务的逐任务成功率（%），MolmoAct2 在大多数任务上领先，在 Pack Box、Rotate Valve 等长时程任务上尤为突出。（B）跨行为和结果指标的归一化性能雷达图（CT=完成时间，TL=轨迹长度，JPL=关节路径长度，CPL=笛卡尔路径长度，CJ=笛卡尔抖动，JJ=关节抖动，SC=自碰撞，SL=滑移次数）。MolmoAct2 全面领先，成功率 44.3%（超越 π₀.₅ 的 3.8%），且轨迹更短、更稳定。

鲁棒性评估（分布外扰动）

模型	Spatial Var.	Lighting	Language	Distractor	总体
π₀.₅	15.00	33.70	26.15	33.20	27.01
OpenVLA-OFT	13.75	46.25	51.25	48.30	39.89
MolmoAct2-Think	26.25	62.05	60.35	54.10	50.69

MolmoAct2-Think 在空间变化、光照、语言措辞变体和视觉干扰四类 OOD 扰动下，总体成功率 50.69%，超越第二名 OpenVLA-OFT 10.80 个百分点。

推理速度

推理控制率优化 — **缓存与 CUDA Graph 优化后的推理控制率。**控制率 = 动作 horizon / 端到端延迟；使用 horizon=10，在单张 H100 上于 LIBERO 测量。MolmoAct2 经 CUDA Graph 优化达到 55.79 Hz（原始的 2.42×），MolmoAct2-Think 达到 12.71 Hz（1.58×）。

消融实验

具身推理骨干：以相同离散动作架构微调，Molmo2-ER 骨干在 LIBERO-Long 上达 83.6%，超越 Molmo2 骨干的 77.6%（+6.0 点）。
VLM-to-expert 条件化方式：per-layer KV conditioning（95.9%）优于隐状态条件化（94.0%）和 per-head KV（94.8%）。
flow 采样数 K：K=8 时平均最优（95.90%），K=1 最弱（94.15%）。
精调设计：全量微调 + 离散动作 co-training（无知识隔离）效果最佳（97.20%）；仅微调动作专家为明显失败项（93.05%）。
MolmoAct2-Think 深度精调：混合训练 + 噪声注入 + depth gate 三者组合最优（98.10%），相比无任何增强的基线（97.50%）提升 0.6 点。

04 局限性

Note：以下局限性部分为论文正文中明确陈述（labeled: stated），部分从模型设计中推断（labeled: inferred）。论文未设独立局限性章节。

Open 类任务性能较弱（stated）

在 MolmoSpaces 基准的 Open（关节体交互）类别上，MolmoAct2-DROID 得分仅 9.5，明显低于 π₀.₅-DROID 的 22.7，表明"articulated-object interaction remains a direction for further improvement"（论文原文）。

空间泛化仍是薄弱项（stated）

在 OOD 鲁棒性评估中，MolmoAct2 在 Spatial Variance（空间位置超出训练分布）类别下的绝对成功率仅 26.25%，是四类扰动中最低的，表明细粒度空间泛化仍有提升空间（论文指出 "room for improvement on fine-grained spatial generalization"）。

MolmoAct2-Think 的 CUDA Graph 加速收益有限（stated）

MolmoAct2-Think 的自适应深度解码阶段因其自回归特性（序列依赖、变长执行），CUDA Graph 加速仅带来 1.58× 提升，远低于 MolmoAct2 的 2.42×。高延迟（约 12.71 Hz）相对于高频控制需求仍有差距。

评估平台多样性仍有限（inferred）

尽管评估覆盖 DROID Franka、SO-100/101、双臂 YAM 三类平台，但均为桌面操作类任务，对移动底盘、人形机器人等更多具身形式的泛化能力尚未验证（从论文范围推断）。

深度估计依赖 Depth Anything V2（inferred）

MolmoAct2-Think 的深度 token 由 Depth Anything V2 单目估计生成，在反光表面、透明物体或极端光照等场景下深度估计可能失准，进而影响自适应深度推理质量（从数据处理流程推断）。