arXiv 2512.24125 · 机器人操作 · VLA

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

GenieReasoner:在统一空间中联合优化具身推理与精确动作执行
Yi Liu, Sukai Wang, Dafeng Wei, Xiaowei Cai, Linqing Zhong, Jiange Yang, Guanghui Ren, Jinyu Zhang, Maoqing Yao, Chuankang Li, Xindong He, Liliang Chen, Jianlan Luo

现有 VLA 模型在推理泛化与高精度动作执行之间存在根本性矛盾。本文提出两个互补贡献: ERIQ(6,052 条具身推理问答,覆盖四个推理维度)用于系统量化该瓶颈, FACT(基于 flow matching 的动作分词器)将连续动作离散化同时保留高保真轨迹重建能力。 整合后的 GenieReasoner 在真实机器人任务中超越连续与离散动作基线。

arXiv 2512.24125 提交:2025-12-30 GenieReasoner-3B 📄 arXiv:2512.24125
VLA embodied reasoning action tokenizer flow matching ERIQ benchmark FACT GenieReasoner 机器人操作 VQ-VAE 离散动作

01 动机

通用机器人需要在开放世界环境中同时做到广泛泛化与高精度动作执行——这一组合对现有 Vision-Language-Action(VLA)模型而言仍是重大挑战。

"models optimized for strong reasoning capabilities tend to exhibit reduced action precision, while those achieving high-fidelity execution often demonstrate limited generalization."

具体而言,现有方案存在三层缺陷:

为定量解耦这一瓶颈,作者构建了 ERIQ(Embodied Reasoning Intelligence Quotient)—— 一个包含 6,052 条具身问答对的大规模基准,跨四个推理维度评测 VLM, 并证明具身推理能力与端到端 VLA 泛化性能之间存在显著正相关。

GenieReasoner 系统概览
图1:GenieReasoner 系统概览。 左侧展示统一架构将推理与控制结合;中部显示 FACT 分词器基于 flow matching 实现高保真轨迹重建; 右侧对比性能——GenieReasoner 在 ERIQ 上比基线提升 41% 准确率,重建 MSE 低于 π₀-FAST。
6,052ERIQ 问答对总量(四维度)
82.72%GenieReasoner-3B 在 ERIQ 上的平均准确率
58.64%基线 Qwen2.5-VL-3B 在 ERIQ 上的平均准确率
10×FACT 轨迹重建误差低于 FAST+ 的幅度(相同码长)

02 方法

本文提出三个互补模块:ERIQ(评估框架)、FACT(动作分词器) 与 GenieReasoner(统一模型),共同构成从诊断到执行的完整框架。

GenieReasoner 系统架构
图4:GenieReasoner 系统架构。 (a) 训练流程:VLM 主干联合优化 VLM 推理目标与离散动作预测目标,FACT 编码器将连续动作块转换为离散码; (b) 推理流程:模型预测离散码序列,FACT 解码器通过 ODE 积分将其还原为连续控制信号。

ERIQ:具身推理智商基准

ERIQ 包含 6,052 条标准化多选问答对,覆盖四个具身推理维度, 共 15 个细粒度子任务:

通过将推理与运动执行解耦,ERIQ 能够系统性评测 VLM 的具身推理短板, 并揭示推理能力与端到端 VLA 泛化之间的强正相关关系。

ERIQ 基准示例
图2:ERIQ 基准示例。 展示四个主要具身推理维度下的样本问答对,涵盖从空间感知到人类意图理解的多样化推理挑战。

FACT:基于 Flow Matching 的动作分词器

FACT(Flow-matching-based Action tokenizer for Control Tasks)结合 VQ-VAE 离散化与 flow matching 解码, 实现连续动作的无损压缩与高保真还原:

FACT 动作分词器架构
图5:FACT 动作分词器架构。 VQ-encoder 将机器人动作离散化为紧凑的 token 序列; flow-matching decoder 从量化 token 与高斯噪声出发,通过速度场积分重建平滑连续轨迹。

GenieReasoner:统一推理-动作模型

GenieReasoner 将 VLM 主干(3B 参数规模)与 FACT 分词器统一训练。 训练阶段,VLM 在多模态数据上同时优化推理目标与离散动作预测目标; 推理阶段,模型自回归地预测离散码序列,FACT 解码器实时还原为连续控制信号, 避免了连续头与推理目标之间的优化冲突。

训练数据来源涵盖:

03 实验

实验分三部分:ERIQ 基准评测、FACT 轨迹重建对比、以及真实机器人任务验证。 基线包括连续动作模型 π₀、π₀.₅、GR00T 以及离散动作模型 π₀-FAST。

ERIQ 基准结果

GenieReasoner-3B 在 ERIQ 上取得 82.72% 平均准确率, 远超 Qwen2.5-VL-3B 基线的 58.64%,提升约 41%。 各维度详细结果如下:

ERIQ 子任务 维度 Qwen2.5-VL-3B(基线) GenieReasoner-3B
Scene Understanding 空间感知 84.18%
Dualview 空间感知 68.54%
Task Grounding 空间感知 93.21%
Relative Position 空间感知 77.51%
Action Understanding 规划与监控 96.67%
Success Detection 规划与监控 85.25%
Subtask Planning 规划与监控 90.50%
Fine-grained Planning 规划与监控 55.36%
Trajectory 规划与监控 73.86%
Progress 规划与监控 51.60%
Mistake Existence 错误检测 75.45%
Error Classification 错误检测 93.10%
Recovery Strategy 错误检测 85.71%
Intention Comprehension 意图理解 96.44%
Human Interaction 意图理解 83.26%
ERIQ 总体平均 58.64% 82.72%

FACT 轨迹重建对比

FACT vs FAST+ 重建误差对比
图7:FACT vs FAST+ 重建 MSE 对比(不同码长)。 在相同压缩码长下,FACT 的均方误差显著低于 FAST+ 基线, "often outperforming FAST+ by an entire order of magnitude"(常达一个数量级的差距)。

真实机器人任务结果

在真实机器人评测中,GenieReasoner 在以下五个复杂度设置下的语言跟随(language following)指标 与完整任务成功率(full task success rate,含抓取与物体操作)两项指标上均优于所有基线(π₀、π₀.₅、GR00T、π₀-FAST), 并在综合加权性能上取得最高分。

真实机器人多样化操作任务可视化
图11:真实机器人多样化操作任务可视化。 包括细粒度 OOD 操作(Unseen Object、Color Variation)、长时序语义任务以及可变形物体处理(Spatial/Pose Variation), 展示了 GenieReasoner 在多种真实场景下的泛化能力。

消融实验

作者通过消融实验验证了两个核心设计选择:

04 局限性

说明:论文未设专门的 Limitations 章节。 以下条目:前两条为作者在结论中明确提及的未来工作方向(stated); 后两条为从方法设计推断的潜在局限(inferred)。
Chain-of-Thought 与动作生成的深层协同尚待探索(stated)

作者明确指出,未来工作将探索 "deeper synergies between Chain-of-Thought reasoning and action generation"。 当前 GenieReasoner 将推理与动作在同一序列空间中预测,但二者的交互机制(例如推理步骤如何动态调整动作码) 尚未深入研究。

跨多样化真实环境的泛化与指令跟随鲁棒性(stated)

作者计划 "further enhance the system's generalization and instruction-following robustness across diverse real-world environments",隐含当前模型在分布外场景(极端光照、新型物体、 非结构化指令)下仍存在鲁棒性不足的问题。

专有训练数据依赖(inferred)

GenieReasoner 的训练数据包含 AgiBot World 平台的专有轨迹数据、定位标注等, 这些数据未公开,限制了社区复现与公平对比。ERIQ 基准的构建过程同样依赖内部数据源, 外部研究者难以直接扩展。

码长与精度的权衡未被完整刻画(inferred)

图7 展示了不同码长下的重建 MSE 对比,但论文未提供端到端任务成功率随码长变化的系统分析, 实践中最优码长选择仍依赖经验调参,缺乏理论指导。