ICRA 2026 · cs.RO

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

赋予 VLA 模型测试时长视野推理能力的即插即用框架
Wenkai Guo, Guanxing Lu, Haoyuan Deng, Zhenyu Wu, Yansong Tang, Ziwei Wang

VLA-Reasoner 是一个即插即用框架,通过在线蒙特卡洛树搜索(MCTS)与学习型世界模型,赋予已有 VLA 模型在测试时探索长视野动作轨迹的能力,从而避免短视决策导致的累积偏差,在仿真和真实机器人任务上均显著提升操作成功率。

ICRA 2026 提交:2025-09 机器人操作 · 测试时推理 📄 arXiv:2509.22643 🌐 Project Page
Vision-Language-Action Monte Carlo Tree Search test-time compute world model KDE sampling value estimation robot manipulation VLA 机器人操作 测试时推理

01 动机

当前 Vision-Language-Action(VLA)模型在机器人部署时存在"短视"问题:每一步只预测当前最优动作,不考虑后续轨迹后果,导致误差随时间累积,长视野任务失败率高。

"Can VLAs explore the long-horizon future influence of actions at test time, and decide the optimal action?"
VLA-Reasoner Teaser
图 1:VLA-Reasoner 与基础 VLA 的对比示意。左侧为直接输出动作的传统 VLA 基线;右侧为加入 MCTS 树搜索后的 VLA-Reasoner——通过多步模拟和回溯更新,在测试时选取具有长视野优势的动作。
+19%OpenVLA 真实任务绝对成功率提升(22% → 41%)
+10%π0-FAST 真实任务绝对成功率提升(64% → 74%)
+9.8%Octo-Small 在仿真中的绝对提升
3 VLAs覆盖 OpenVLA / Octo-Small / SpatialVLA 三类骨干

VLA 模型继承了大规模视觉-语言预训练的泛化能力,在机器人模仿学习上取得了显著成果。然而,这类模型在部署阶段仍然脆弱——它们将机器人控制当作一步步的局部决策,忽略了动作对未来状态的长链式影响。对于需要精确堆叠、抓取或多步协调的任务,即使微小的偏差也会随时间放大,最终导致任务失败。

VLA-Reasoner 的核心思路是:不修改 VLA 权重,仅在测试时外挂一套基于 MCTS 的规划模块,通过学习型世界模型模拟未来状态,以 value function 引导搜索,从而找到长视野更优的动作。

02 方法

VLA-Reasoner 由三个核心模块组成:基于 MCTS 的在线动作搜索、Kernel Density Estimation(KDE)高效采样机制、以及基于视觉的轻量 value network。最终动作由 VLA 预测与 MCTS 结果加权融合得到。

VLA-Reasoner Pipeline
图 2:VLA-Reasoner 完整流程。VLA 模型输出动作作为树搜索的根节点初始化;轻量 MCTS 通过"扩展→模拟→回传→选择"四步循环,借助世界模型预测未来视觉状态,并由 value network 评估节点价值;最终选取最优叶节点动作与原始 VLA 动作加权融合后执行。

在线 MCTS 动作搜索

MCTS 以当前 VLA 的预测动作为根节点,执行四阶段循环:

Kernel Density Estimation(KDE)高效采样

反复查询 VLA 成本高昂。VLA-Reasoner 用 KDE 对离线数据中的动作分布建模:π(a) = (1/N) Σ K_h(a − a(i)),以概率密度作为访问次数的代理,在保留 VLA 先验的同时大幅减少对模型的实时调用。

视觉 value network 与动作融合

轻量 ResNet-34 + 2-layer MLP 在离线轨迹上训练,以线性插值帧位置为 ground-truth value(MSE loss),为中间树节点提供稠密反馈。最终执行动作为:

a(t) = α · a(VLA) + (1−α) · a(Reasoner)

其中超参数 α 控制原始 VLA 预测与树搜索结果之间的平衡。消融实验显示 α = 0.6 时效果最佳,适度融合优于完全依赖任一来源。

Real-world Setup
图 3:真实世界实验配置。使用 Galaxea-A1 机械臂,配备侧置摄像头与腕部摄像头,覆盖积木堆叠、水果拣选、杯子堆叠、圆周运动等五类任务,每类任务提供 20 个训练示例。

03 实验

在仿真环境(LIBERO、SimplerEnv)和真实机器人(Galaxea-A1)上与 OpenVLA、Octo-Small、SpatialVLA、π0-FAST 等多个 VLA 基线对比,评估指标为任务成功率(success rate)。

仿真结果(LIBERO & SimplerEnv)

基线 VLA原始成功率+ VLA-Reasoner绝对提升
OpenVLA-SFT76.0%81.0%+5.0%
Octo-Small26.5%37.3%+9.8%
SpatialVLA34.0%41.8%+7.8%

值得注意的是,VLA-Reasoner 在不进行大规模后训练的前提下,使部分基线达到了与当前最优变体相当的性能水平。

真实机器人结果(Galaxea-A1,55 项任务)

基线 VLA原始成功率+ VLA-Reasoner相对提升
OpenVLA-7B22%41%+86.4%
π0-FAST(商业模型)64%74%+15.6%
Qualitative Case Study
图 4:杯子堆叠任务的案例对比。上行为基线 VLA 的失败过程——动作偏移累积,最终无法完成叠放;下行为 VLA-Reasoner 通过测试时模拟主动修正轨迹偏差,实现稳定操作。

消融实验

Alpha ablation
图 5:注入强度 α 的消融。α = 0.6 时性能最优;纯 VLA(α = 1.0)和纯 Reasoner(α = 0.0)均弱于适度融合,说明两者各有互补价值。
Component ablation
图 6:关键组件验证。KDE 采样优于高斯噪声基线(有效捕获专家行为先验);基于图像的 value estimation 优于 token-based reward head(更简洁且可解释)。

04 局限性

说明:以下局限性均为论文作者明确陈述(stated),见论文 Limitations 章节及 Future Directions 讨论。
需要部署前的任务专属训练

当前方案在部署前需要针对目标任务训练世界模型、KDE 分布估计器和 value network,增加了新任务的配置成本,不支持零样本直接迁移。

依赖世界模型的预测精度

MCTS 的搜索质量高度依赖学习型世界模型对未来视觉状态的预测是否准确。论文指出"better visual foresight models would improve feedback quality"——世界模型误差会传导为错误的 value 信号,影响最终动作选择。

Value estimation 设计较为简单

当前的离线线性插值方式为 value 提供稠密监督,但较为启发式。论文认为"more principled data-driven or learning-based methods"有望带来更稳定的搜索效果。

计算开销限制部署平台

实验使用 RTX 4090 进行实时 GPU 推理。在计算资源受限的嵌入式机器人平台上,当前框架的可扩展性尚不明确,面向低算力平台的适配是未来工作方向之一。