Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

01 动机

通用机器人需要在开放世界环境中同时做到广泛泛化与高精度动作执行——这一组合对现有 Vision-Language-Action（VLA）模型而言仍是重大挑战。

"models optimized for strong reasoning capabilities tend to exhibit reduced action precision, while those achieving high-fidelity execution often demonstrate limited generalization."

具体而言，现有方案存在三层缺陷：

语义泛化不足：大型 VLM 提供语言理解，但具身推理（空间感知、任务规划、错误恢复）仍薄弱，导致机器人在分布外场景下行为脆弱。
动作精度损失：现有离散动作分词器（均匀分箱或 VQ-VAE）在量化过程中丢失轨迹精细结构，重建误差较大。
优化冲突：将连续动作头直接附加到 VLM 主干时，推理目标与动作预测目标相互干扰，难以联合优化。

为定量解耦这一瓶颈，作者构建了 ERIQ（Embodied Reasoning Intelligence Quotient）—— 一个包含 6,052 条具身问答对的大规模基准，跨四个推理维度评测 VLM，并证明具身推理能力与端到端 VLA 泛化性能之间存在显著正相关。

**图1：GenieReasoner 系统概览。** 左侧展示统一架构将推理与控制结合；中部显示 FACT 分词器基于 flow matching 实现高保真轨迹重建；右侧对比性能——GenieReasoner 在 ERIQ 上比基线提升 **41%** 准确率，重建 MSE 低于 π₀-FAST。

6,052ERIQ 问答对总量（四维度）

82.72%GenieReasoner-3B 在 ERIQ 上的平均准确率

58.64%基线 Qwen2.5-VL-3B 在 ERIQ 上的平均准确率

10×FACT 轨迹重建误差低于 FAST+ 的幅度（相同码长）

02 方法

本文提出三个互补模块：ERIQ（评估框架）、FACT（动作分词器）与 GenieReasoner（统一模型），共同构成从诊断到执行的完整框架。

**图4：GenieReasoner 系统架构。** (a) 训练流程：VLM 主干联合优化 VLM 推理目标与离散动作预测目标，FACT 编码器将连续动作块转换为离散码； (b) 推理流程：模型预测离散码序列，FACT 解码器通过 ODE 积分将其还原为连续控制信号。

ERIQ：具身推理智商基准

ERIQ 包含 6,052 条标准化多选问答对，覆盖四个具身推理维度，共 15 个细粒度子任务：

空间感知与定位（Spatial Perception & Grounding）：场景理解、双视角感知、任务定位、相对位置。
规划与监控（Planning & Monitoring）：动作理解、成功检测、子任务规划、细粒度规划、轨迹跟踪、进度评估。
错误检测与恢复（Error Detection & Recovery）：错误识别、错误分类、恢复策略。
人类意图理解（Human Intent Understanding）：意图理解、人机交互。

通过将推理与运动执行解耦，ERIQ 能够系统性评测 VLM 的具身推理短板，并揭示推理能力与端到端 VLA 泛化之间的强正相关关系。

**图2：ERIQ 基准示例。** 展示四个主要具身推理维度下的样本问答对，涵盖从空间感知到人类意图理解的多样化推理挑战。

FACT：基于 Flow Matching 的动作分词器

FACT（Flow-matching-based Action tokenizer for Control Tasks）结合 VQ-VAE 离散化与 flow matching 解码，实现连续动作的无损压缩与高保真还原：

编码器：通过 zero-initialized queries 将动作块映射到潜在表示 e = ℰ_θ(a_{0:H}, e_{ini})，在时间维度（L≤H）和空间维度（D≤S）进行压缩。比特量化器通过 c = sign(e) 将连续嵌入转换为二值离散码。
解码器（Rectified Flow）：学习从高斯噪声到动作分布的速度场。线性插值定义为 a^(t) = (1−t)z + ta, t ∈ [0,1]，通过 ODE 积分重建平滑轨迹。
训练目标：三重损失联合优化——熵损失（最大化码本利用率）、承诺损失（保持连续嵌入接近量化值）、flow-matching 目标 MSE of (a−z) − 𝒟_θ(a^(t), c, t)。

**图5：FACT 动作分词器架构。** VQ-encoder 将机器人动作离散化为紧凑的 token 序列； flow-matching decoder 从量化 token 与高斯噪声出发，通过速度场积分重建平滑连续轨迹。

GenieReasoner：统一推理-动作模型

GenieReasoner 将 VLM 主干（3B 参数规模）与 FACT 分词器统一训练。训练阶段，VLM 在多模态数据上同时优化推理目标与离散动作预测目标；推理阶段，模型自回归地预测离散码序列，FACT 解码器实时还原为连续控制信号，避免了连续头与推理目标之间的优化冲突。

训练数据来源涵盖：

通用 VLM 数据：Cambrian-10M、LLaVA-OneVision、Describe Anything、CogVLM-SFT-311K、BLIP3-Grounding-50M
具身数据：NVIDIA Cosmos-Reason、ShareRobot、Robo2VLM、EmbSpatial-SFT、ManipulationVQA-60K、ERIQ
专有数据：AgiBot World 平台提供的轨迹数据、定位标注、子任务规划数据及场景理解数据

03 实验

实验分三部分：ERIQ 基准评测、FACT 轨迹重建对比、以及真实机器人任务验证。基线包括连续动作模型 π₀、π₀.₅、GR00T 以及离散动作模型 π₀-FAST。

ERIQ 基准结果

GenieReasoner-3B 在 ERIQ 上取得 82.72% 平均准确率，远超 Qwen2.5-VL-3B 基线的 58.64%，提升约 41%。各维度详细结果如下：

ERIQ 子任务	维度	Qwen2.5-VL-3B（基线）	GenieReasoner-3B
Scene Understanding	空间感知	—	84.18%
Dualview	空间感知	—	68.54%
Task Grounding	空间感知	—	93.21%
Relative Position	空间感知	—	77.51%
Action Understanding	规划与监控	—	96.67%
Success Detection	规划与监控	—	85.25%
Subtask Planning	规划与监控	—	90.50%
Fine-grained Planning	规划与监控	—	55.36%
Trajectory	规划与监控	—	73.86%
Progress	规划与监控	—	51.60%
Mistake Existence	错误检测	—	75.45%
Error Classification	错误检测	—	93.10%
Recovery Strategy	错误检测	—	85.71%
Intention Comprehension	意图理解	—	96.44%
Human Interaction	意图理解	—	83.26%
ERIQ 总体平均	—	58.64%	82.72%

FACT 轨迹重建对比

FACT vs FAST+ 重建误差对比 — **图7：FACT vs FAST+ 重建 MSE 对比（不同码长）。** 在相同压缩码长下，FACT 的均方误差显著低于 FAST+ 基线， "often outperforming FAST+ by an entire order of magnitude"（常达一个数量级的差距）。

真实机器人任务结果

在真实机器人评测中，GenieReasoner 在以下五个复杂度设置下的语言跟随（language following）指标与完整任务成功率（full task success rate，含抓取与物体操作）两项指标上均优于所有基线（π₀、π₀.₅、GR00T、π₀-FAST），并在综合加权性能上取得最高分。

**图11：真实机器人多样化操作任务可视化。** 包括细粒度 OOD 操作（Unseen Object、Color Variation）、长时序语义任务以及可变形物体处理（Spatial/Pose Variation），展示了 GenieReasoner 在多种真实场景下的泛化能力。

消融实验

作者通过消融实验验证了两个核心设计选择：

ERIQ 数据的作用：将具身推理数据加入训练后，VLA 任务的泛化性能显著提升，印证了论文的核心假设——具身推理能力与动作泛化之间存在因果关联，而非仅相关。
FACT vs. 其他分词器：与均匀分箱和传统 VQ-VAE 相比， FACT 的 flow matching 解码器在相同码本大小下显著降低重建误差，为下游精确执行奠定基础。

04 局限性

说明：论文未设专门的 Limitations 章节。以下条目：前两条为作者在结论中明确提及的未来工作方向（stated）；后两条为从方法设计推断的潜在局限（inferred）。

Chain-of-Thought 与动作生成的深层协同尚待探索（stated）

作者明确指出，未来工作将探索 "deeper synergies between Chain-of-Thought reasoning and action generation"。当前 GenieReasoner 将推理与动作在同一序列空间中预测，但二者的交互机制（例如推理步骤如何动态调整动作码）尚未深入研究。

跨多样化真实环境的泛化与指令跟随鲁棒性（stated）

作者计划 "further enhance the system's generalization and instruction-following robustness across diverse real-world environments"，隐含当前模型在分布外场景（极端光照、新型物体、非结构化指令）下仍存在鲁棒性不足的问题。

专有训练数据依赖（inferred）

GenieReasoner 的训练数据包含 AgiBot World 平台的专有轨迹数据、定位标注等，这些数据未公开，限制了社区复现与公平对比。ERIQ 基准的构建过程同样依赖内部数据源，外部研究者难以直接扩展。

码长与精度的权衡未被完整刻画（inferred）

图7 展示了不同码长下的重建 MSE 对比，但论文未提供端到端任务成功率随码长变化的系统分析，实践中最优码长选择仍依赖经验调参，缺乏理论指导。