MolmoAct: Action Reasoning Models that can Reason in Space

01 动机

当前大多数视觉-语言-动作（VLA）模型将感知与指令直接映射到控制信号，缺乏中间推理步骤，导致适应性、泛化性和语义可解释性受限。论文指出，大语言模型从 chain-of-thought 推理中获益匪浅，而机器人学领域却鲜有类似结构。

"Reasoning is central to purposeful action, yet most robotic foundation models map perception and instructions directly to control, which limits adaptability, generalization, and semantic grounding."

作者认为，机器人的推理应当「根植于空间理解」而非纯语言推理——轨迹、深度信息与物理空间才是机器人决策的真正基础。MolmoAct 的核心贡献是将这一理念落地：在自回归生成的同一 token 序列中，依次推断深度、轨迹与动作，实现可解释、可干预的行为。

MolmoAct system overview — **Figure 1：**MolmoAct 系统概览。模型接收 RGB 观测与自然语言指令，依次输出深度 token（深度感知）、2D end-effector 轨迹 trace（空间规划）与低层机器人动作 token（精准控制）。三个推理链相互条件化，共同支撑可解释、可干预的操作行为。

70.5%SimplerEnv zero-shot
Visual Matching Avg

86.6%LIBERO 平均成功率
（4 类任务）

+22.7%双臂操作超越
π₀-FAST

10,689MolmoAct Dataset
真实轨迹条数

02 方法

MolmoAct 采用自回归 Transformer 架构，将深度估计、轨迹生成与动作预测统一在同一 token 序列中，按顺序条件化：深度 token 由图像与指令确定，轨迹 trace 以深度为条件，动作 token 则同时以深度与轨迹为条件。

MolmoAct model and training pipeline — **Figure 2：**MolmoAct 模型结构与训练流程。左侧展示三阶段解码结构（深度 → 轨迹 → 动作）；右侧为预训练（网络数据 + 推理数据）与后训练（机器人数据微调）两阶段的数据混合方案。预训练使用 26.3M 样本，包含 38.7% 动作推理数据、38.7% 轨迹条件数据与 21.5% 网络数据。

Stage 1 · Depth Perception Tokens

利用预训练深度估计器 Depth Anything V2 从 RGB 图像提取深度图，再经过 VQVAE（codebook 维度 128，序列长度 100 tokens）离散化编码。100 个深度 token 被插入到文本 token 序列中，令模型获得「3D understanding, which is critical for robotic manipulation」。VQVAE 在 1000 万张桌面操作深度图上训练，分辨率 320×320。

Stage 2 · Visual Reasoning Trace

模型预测 end-effector 在图像平面上的未来轨迹，表示为折线（1–5 个关键点），以像素坐标直接叠加在观测图像上。与纯语言规划不同，trajectory trace 是 2D 空间中「future motion of the end effector」的直接表达，可被人类实时查看和编辑，实现行为的可干预性（steerability）。

Stage 3 · Action Token Tokenization

机器人动作以每维 256 个均匀宽度 bin 离散化。与随机分配词汇 token 不同，作者将 Qwen2 tokenizer 最后 256 个 token（字节级 BPE 符号）单调递增地分配给各 bin，从而保留动作的序数结构——相邻 bin 对应相邻符号——为优化提供「smoother starting point」。此外，采用 similarity-preserving initialization 初始化动作 token 嵌入，将预训练效率提升超 5×（相比 GR00T N1.5 的 50,000 GPU 小时，MolmoAct 仅需 9,728 小时）。

训练策略

预训练（256 × H100，100k 步，batch 512）在网络多模态数据与推理数据上进行，建立空间理解与语言理解的基础；中训练（128 × H100，50k 步，batch 128）在 MolmoAct Dataset（10,689 条 Franka 单臂轨迹，93 类家庭任务，平均 112 timesteps/条）上强化操作能力；后训练在目标任务数据上微调。

03 实验

评估覆盖仿真基准（SimplerEnv、LIBERO）和真实世界单臂/双臂操作任务，基线包括 π₀-FAST、GR00T N1.5、SpatialVLA、ThinkAct 等主流 VLA 模型。

SimplerEnv（仿真，Google Robot）

模型	Visual Matching Avg	Variant Aggregation Avg
MolmoAct-7B-D（zero-shot）	70.5%	59.3%
MolmoAct-7B-D（fine-tuned）	71.6%	72.1%
π₀-FAST（fine-tuned）	61.9%	59.0%
SpatialVLA	70.0%	—
GR00T N1.5	52.4%	43.7%

MolmoAct 零样本 Visual Matching 超越所有基线，fine-tuned Variant Aggregation 超越 RT-2-X 7.8%。

LIBERO（仿真，长视野操作）

模型	Spatial	Object	Goal	Long-horizon	平均
MolmoAct-7B-D	87.0%	95.4%	87.6%	77.2%	86.6%
π₀-FAST	96.4%	96.8%	88.6%	60.2%	85.5%
ThinkAct	88.3%	91.4%	87.1%	70.9%	84.4%

MolmoAct 在长视野任务（LIBERO-Long）上超越 ThinkAct 6.3 个百分点，体现了空间推理在复杂序列操作中的优势。值得注意：π₀-FAST 在 Spatial 和 Object 子任务上仍优于 MolmoAct。

真实世界操作（Real-World）

Real-world task progression across models — **Figure 5：**真实场景单臂与双臂任务中各模型的 task progression 曲线（带误差棒）。MolmoAct 在单臂任务超越 π₀-FAST 约 10%，在双臂操作任务超越 π₀-FAST 22.7%，体现了轨迹推理对复杂协作操作的重要性。

Out-of-distribution generalization evaluation — **Figure 6a：**真实场景 out-of-distribution 泛化能力对比。MolmoAct 在 OOD 设置下平均提升 23.3%，对新背景、新物体姿态、新指令的适应性显著强于基线。

可操纵性（Steerability）与指令泛化

Steerability evaluation — **Figure 9：**可操纵性评估结果。基于轨迹 trace 的人工干预成功率达 75%，显著高于纯语言引导（33%）。左图为不同引导方式的成功率柱状图；右图展示轨迹叠加在摄像头视图上的可视化效果，便于操作者实时理解和修正机器人意图。

人类评估中，MolmoAct 在指令跟随 Elo 评分上排名第一，对战 SpatialVLA 胜率 58%；轨迹引导的 steerability 成功率 75%，比语言引导高出 42 个百分点。MolmoAct Dataset 中训练为通用性能带来平均 5.5% 的提升。

消融实验

消融研究验证了三个核心设计选择的有效性：（1）深度 token 的引入对需要 3D 理解的操作任务至关重要；（2）trajectory trace 作为中层规划的引入显著提升了长视野任务成功率和可操纵性；（3）action tokenization 中 similarity-preserving initialization 对预训练效率的提升超过 5×（9,728 vs. GR00T N1.5 的 50,000 GPU 小时）。MolmoAct Dataset 的中训练阶段为现实场景操作带来平均 5.5% 的性能增益。

04 局限性

说明：原论文的 Appendix G「Limitations and Potential Solutions」在 arXiv HTML 渲染中未完整呈现。以下局限性综合了论文正文的明确说明（标注「论文陈述」）与从模型设计中推断的问题（标注「推断」）。

深度估计的前置依赖（论文陈述）

MolmoAct 依赖 Depth Anything V2 提供深度先验，VQVAE 在 1000 万张桌面操作场景上训练。若部署环境与训练分布差异过大（如户外场景、透明/反光物体），深度估计质量可能下降，进而影响整个推理链的可靠性。

2D 轨迹 trace 的表达局限（推断）

空间规划仅以图像平面 2D 折线表示，无法直接编码三维末端执行器姿态或与环境的接触力信息。对于需要精确 6-DoF 控制或力控的操作任务，当前的 trace 表示可能不足以充分约束动作预测。

数据规模与任务多样性受限（推断）

MolmoAct Dataset 由五名操作员在两个月内采集，共 10,689 条轨迹、93 类家庭任务，仅覆盖单臂 Franka 机器人。相比大规模开源机器人数据集（如 Open X-Embodiment），数据规模与平台多样性仍有差距，跨具身迁移能力有待进一步验证。

训练计算成本仍然较高（推断）

尽管相比 GR00T N1.5（50,000 GPU 小时）已大幅降低，MolmoAct 的预训练仍需 9,728 GPU 小时（256 × H100），中训练需额外 2,304 GPU 小时（128 × H100），对大多数学术机构和中小型团队而言仍是较高门槛。