机器人 · Robotics · arXiv 2025

MolmoAct: Action Reasoning Models that can Reason in Space

将空间推理引入机器人基础模型——从深度感知到轨迹规划再到精准动作
Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna · UW / Allen Institute for AI

MolmoAct 提出了一类名为 Action Reasoning Model (ARM) 的机器人基础模型,通过三阶段结构化流水线——深度感知 token 编码、中层空间轨迹规划、低层精准动作预测——在不牺牲端到端可训练性的前提下,赋予机器人「在空间中推理」的能力。模型在零样本 SimplerEnv 测试中达到 70.5% 成功率,并在真实场景操作中全面超越 π₀-FAST。

MolmoAct-7B-D (SigLIP2 + Qwen2.5-7B) 256 H100 · 9,728 GPU hrs 预训练 数据集:10,689 条真实轨迹 📄 arXiv:2508.07917
VLA Action Reasoning Model 机器人操作 空间推理 trajectory trace depth perception tokens 策略学习 action tokenization

01 动机

当前大多数视觉-语言-动作(VLA)模型将感知与指令直接映射到控制信号,缺乏中间推理步骤,导致适应性、泛化性和语义可解释性受限。论文指出,大语言模型从 chain-of-thought 推理中获益匪浅,而机器人学领域却鲜有类似结构。

"Reasoning is central to purposeful action, yet most robotic foundation models map perception and instructions directly to control, which limits adaptability, generalization, and semantic grounding."

作者认为,机器人的推理应当「根植于空间理解」而非纯语言推理——轨迹、深度信息与物理空间才是机器人决策的真正基础。MolmoAct 的核心贡献是将这一理念落地:在自回归生成的同一 token 序列中,依次推断深度、轨迹与动作,实现可解释、可干预的行为。

MolmoAct system overview
Figure 1:MolmoAct 系统概览。模型接收 RGB 观测与自然语言指令,依次输出深度 token(深度感知)、2D end-effector 轨迹 trace(空间规划)与低层机器人动作 token(精准控制)。三个推理链相互条件化,共同支撑可解释、可干预的操作行为。
70.5%SimplerEnv zero-shot
Visual Matching Avg
86.6%LIBERO 平均成功率
(4 类任务)
+22.7%双臂操作超越
π₀-FAST
10,689MolmoAct Dataset
真实轨迹条数

02 方法

MolmoAct 采用自回归 Transformer 架构,将深度估计、轨迹生成与动作预测统一在同一 token 序列中,按顺序条件化:深度 token 由图像与指令确定,轨迹 trace 以深度为条件,动作 token 则同时以深度与轨迹为条件。

MolmoAct model and training pipeline
Figure 2:MolmoAct 模型结构与训练流程。左侧展示三阶段解码结构(深度 → 轨迹 → 动作);右侧为预训练(网络数据 + 推理数据)与后训练(机器人数据微调)两阶段的数据混合方案。预训练使用 26.3M 样本,包含 38.7% 动作推理数据、38.7% 轨迹条件数据与 21.5% 网络数据。

Stage 1 · Depth Perception Tokens

利用预训练深度估计器 Depth Anything V2 从 RGB 图像提取深度图,再经过 VQVAE(codebook 维度 128,序列长度 100 tokens)离散化编码。100 个深度 token 被插入到文本 token 序列中,令模型获得「3D understanding, which is critical for robotic manipulation」。VQVAE 在 1000 万张桌面操作深度图上训练,分辨率 320×320。

Stage 2 · Visual Reasoning Trace

模型预测 end-effector 在图像平面上的未来轨迹,表示为折线(1–5 个关键点),以像素坐标直接叠加在观测图像上。与纯语言规划不同,trajectory trace 是 2D 空间中「future motion of the end effector」的直接表达,可被人类实时查看和编辑,实现行为的可干预性(steerability)。

Stage 3 · Action Token Tokenization

机器人动作以每维 256 个均匀宽度 bin 离散化。与随机分配词汇 token 不同,作者将 Qwen2 tokenizer 最后 256 个 token(字节级 BPE 符号)单调递增地分配给各 bin,从而保留动作的序数结构——相邻 bin 对应相邻符号——为优化提供「smoother starting point」。此外,采用 similarity-preserving initialization 初始化动作 token 嵌入,将预训练效率提升超 5×(相比 GR00T N1.5 的 50,000 GPU 小时,MolmoAct 仅需 9,728 小时)。

训练策略

预训练(256 × H100,100k 步,batch 512)在网络多模态数据与推理数据上进行,建立空间理解与语言理解的基础;中训练(128 × H100,50k 步,batch 128)在 MolmoAct Dataset(10,689 条 Franka 单臂轨迹,93 类家庭任务,平均 112 timesteps/条)上强化操作能力;后训练在目标任务数据上微调。

03 实验

评估覆盖仿真基准(SimplerEnv、LIBERO)和真实世界单臂/双臂操作任务,基线包括 π₀-FAST、GR00T N1.5、SpatialVLA、ThinkAct 等主流 VLA 模型。

SimplerEnv(仿真,Google Robot)

模型Visual Matching AvgVariant Aggregation Avg
MolmoAct-7B-D(zero-shot)70.5%59.3%
MolmoAct-7B-D(fine-tuned)71.6%72.1%
π₀-FAST(fine-tuned)61.9%59.0%
SpatialVLA70.0%
GR00T N1.552.4%43.7%

MolmoAct 零样本 Visual Matching 超越所有基线,fine-tuned Variant Aggregation 超越 RT-2-X 7.8%。

LIBERO(仿真,长视野操作)

模型SpatialObjectGoalLong-horizon平均
MolmoAct-7B-D87.0%95.4%87.6%77.2%86.6%
π₀-FAST96.4%96.8%88.6%60.2%85.5%
ThinkAct88.3%91.4%87.1%70.9%84.4%

MolmoAct 在长视野任务(LIBERO-Long)上超越 ThinkAct 6.3 个百分点,体现了空间推理在复杂序列操作中的优势。值得注意:π₀-FAST 在 Spatial 和 Object 子任务上仍优于 MolmoAct。

真实世界操作(Real-World)

Real-world task progression across models
Figure 5:真实场景单臂与双臂任务中各模型的 task progression 曲线(带误差棒)。MolmoAct 在单臂任务超越 π₀-FAST 约 10%,在双臂操作任务超越 π₀-FAST 22.7%,体现了轨迹推理对复杂协作操作的重要性。
Out-of-distribution generalization evaluation
Figure 6a:真实场景 out-of-distribution 泛化能力对比。MolmoAct 在 OOD 设置下平均提升 23.3%,对新背景、新物体姿态、新指令的适应性显著强于基线。

可操纵性(Steerability)与指令泛化

Steerability evaluation
Figure 9:可操纵性评估结果。基于轨迹 trace 的人工干预成功率达 75%,显著高于纯语言引导(33%)。左图为不同引导方式的成功率柱状图;右图展示轨迹叠加在摄像头视图上的可视化效果,便于操作者实时理解和修正机器人意图。

人类评估中,MolmoAct 在指令跟随 Elo 评分上排名第一,对战 SpatialVLA 胜率 58%;轨迹引导的 steerability 成功率 75%,比语言引导高出 42 个百分点。MolmoAct Dataset 中训练为通用性能带来平均 5.5% 的提升。

消融实验

消融研究验证了三个核心设计选择的有效性:(1)深度 token 的引入对需要 3D 理解的操作任务至关重要;(2)trajectory trace 作为中层规划的引入显著提升了长视野任务成功率和可操纵性;(3)action tokenization 中 similarity-preserving initialization 对预训练效率的提升超过 5×(9,728 vs. GR00T N1.5 的 50,000 GPU 小时)。MolmoAct Dataset 的中训练阶段为现实场景操作带来平均 5.5% 的性能增益。

04 局限性

说明:原论文的 Appendix G「Limitations and Potential Solutions」在 arXiv HTML 渲染中未完整呈现。以下局限性综合了论文正文的明确说明(标注「论文陈述」)与从模型设计中推断的问题(标注「推断」)。
深度估计的前置依赖(论文陈述)

MolmoAct 依赖 Depth Anything V2 提供深度先验,VQVAE 在 1000 万张桌面操作场景上训练。若部署环境与训练分布差异过大(如户外场景、透明/反光物体),深度估计质量可能下降,进而影响整个推理链的可靠性。

2D 轨迹 trace 的表达局限(推断)

空间规划仅以图像平面 2D 折线表示,无法直接编码三维末端执行器姿态或与环境的接触力信息。对于需要精确 6-DoF 控制或力控的操作任务,当前的 trace 表示可能不足以充分约束动作预测。

数据规模与任务多样性受限(推断)

MolmoAct Dataset 由五名操作员在两个月内采集,共 10,689 条轨迹、93 类家庭任务,仅覆盖单臂 Franka 机器人。相比大规模开源机器人数据集(如 Open X-Embodiment),数据规模与平台多样性仍有差距,跨具身迁移能力有待进一步验证。

训练计算成本仍然较高(推断)

尽管相比 GR00T N1.5(50,000 GPU 小时)已大幅降低,MolmoAct 的预训练仍需 9,728 GPU 小时(256 × H100),中训练需额外 2,304 GPU 小时(128 × H100),对大多数学术机构和中小型团队而言仍是较高门槛。