arXiv 2512.14666 · cs.RO · NeurIPS Workshop 2025

EVOLVE-VLA

Test-Time Training from Environment Feedback for Vision-Language-Action Models
Zechen Bai  ·  Chen Gao  ·  Mike Zheng Shou  ·  Show Lab, National University of Singapore

EVOLVE-VLA 提出了一种基于环境反馈的 test-time training 框架,使 VLA 模型能够通过与环境的在线交互持续改进,而无需额外的人工示范。该框架结合学习式进度估计器(VLAC)、Accumulative Progress Estimation 和 Progressive Horizon Extension,在 LIBERO 基准上实现了显著的性能提升,并首次展示了无任务演示情况下的跨任务泛化能力。

LIBERO 操作基准 Base model: OpenVLA-OFT 2025 年 12 月 📄 arXiv:2512.14666 🔗 Project Page
VLA test-time training 具身智能 GRPO 机器人操作 progress estimation LIBERO 跨任务泛化 online RL reinforcement learning

01 动机

当前的 VLA 模型依赖大规模的监督微调(SFT),这在实际部署中存在两大根本缺陷:高昂的数据采集成本以及脆弱的分布内记忆。模型在面对部署环境与训练分布的差异时几乎无法自适应恢复。

"How do humans develop manipulation skills? We do not simply watch an expert perform a task once and then flawlessly replicate it. Instead, we learn through practice: attempting the task repeatedly, making mistakes, receiving feedback from the environment, and gradually refining our movements through continued experience."

作者指出,现有 VLA 的两大核心瓶颈为:

teaser — EVOLVE-VLA vs SFT 框架对比
Figure 1:传统 SFT 范式(左)与 EVOLVE-VLA 的 test-time training 框架(右)对比。随着交互次数增加,EVOLVE-VLA 在 LIBERO-Long 和 1-shot 场景下均大幅超越 SFT 基线。
+8.6%LIBERO-Long 成功率提升
+17.7%1-shot 学习平均提升
20.8%跨任务泛化成功率(vs 0% SFT)
+6.5%LIBERO 整体平均提升

02 方法

EVOLVE-VLA 的核心思路是:在测试时让 VLA 与真实或模拟环境交互,用环境反馈信号(而非人工标注)驱动在线强化学习,从而在无需额外示范的情况下持续提升策略。框架由三个相互协作的组件构成。

EVOLVE-VLA 框架总览
Figure 2:EVOLVE-VLA 框架总览。VLA 策略(左)与环境交互生成轨迹,进度估计器 VLAC(中)输出稠密 reward,GRPO(右)利用组内相对优势更新策略,无需单独 value network。

进度估计器 VLAC(Vision-Language-Action Critic)

由于现实环境中难以获取稀疏成功信号,EVOLVE-VLA 引入了基础模型级别的 critic 模型 VLAC。它接收两张图像和任务指令作为输入,输出一个连续的 critic 值——正值表示第二张图相对于第一张在任务完成上有所进展。这一设计将稀疏的结果信号转化为稠密的逐步反馈,有效解决了 sparse reward 的学习困难问题。

Accumulative Progress Estimation(累积进度估计)

直接使用 VLAC 比较相邻帧会引入大量噪声。论文提出了基于"区间里程碑采样"(interval-based milestone sampling)的累积进度估计策略:将当前状态与最近的里程碑状态对比,而非初始状态,并通过比例调整(proportional adjustments)平滑噪声。消融实验表明,在相同的 reward call 数量(32 次)下,该方法的 F-Score 从 0.04 提升至 0.20,成功率从 88.3% 提升至 91.3%。

Progressive Horizon Extension(渐进式视野扩展)

长时域任务探索困难,策略难以直接从完整轨迹中学习。EVOLVE-VLA 采用渐进式扩展探索视野的训练策略:先让策略掌握较短子目标,再逐步延长任务长度直至完整任务。这一机制带来了额外的 +3.1% 成功率提升(91.3% → 94.4%),如 Table 4 所示。

GRPO 在线优化

策略更新采用 Group Relative Policy Optimization(GRPO)。GRPO 在每批轨迹内归一化奖励计算优势,应用 PPO 风格的 clipping 保证稳定更新,且无需独立的 value network,显著降低了计算开销。采样时以 temperature T > 1 采样以增强轨迹多样性。

03 实验

实验在 LIBERO 基准上进行,该基准包含 4 个任务套件(Spatial / Object / Goal / Long),每套 10 个任务,共 4 种测试场景。基础模型为 OpenVLA-OFT(autoregressive VLA)。

主实验:LIBERO 全套件成功率(Table 1)

模型SpatialObjectGoalLongAvg
OpenVLA-OFT (SFT 基线)90.189.889.885.889.2
EVOLVE-VLA(本文)97.495.895.894.495.8
提升+7.3+6.0+6.0+8.6+6.5

1-Shot 学习(Table 2)

模型SpatialObjectGoalLongAvg
OpenVLA-OFT(1 条示范)65.140.157.215.143.6
EVOLVE-VLA(本文)73.470.064.737.161.3
提升+8.3+29.9+7.5+22.0+17.7

跨任务泛化(Zero-Shot Transfer)

将在 LIBERO-Long 上训练的策略直接部署到 LIBERO-Object:SFT 基线成功率为 0%,而 EVOLVE-VLA 通过纯自主探索,无任务示范地达到 20.8% 成功率——证明了 test-time training 赋予 VLA 超出训练分布的泛化能力。

定性结果示例
Figure 3:定性对比。EVOLVE-VLA(右列)展示了错误恢复和替代策略选择等 SFT 基线(左列)无法实现的行为,如在抓取失败后重新规划路径。

消融实验(Ablations)

Table 3 验证了 Accumulative Progress Estimation 的有效性:在相同 reward call 数(32 次)下,相比直接比较相邻两帧的基线(F-Score 0.04,SR 88.3%),区间采样策略将 F-Score 提升至 0.20,成功率提升至 91.3%,同时避免了均匀采样(Uniform)随 call 数增加导致 SR 下降的问题。

Table 4 展示了逐步叠加各模块的效果:SFT 85.8% → + Binary Outcome Rewards 87.7% → + Dense Reward (Vanilla Critic) 91.3% → + Progressive Horizon Extension 94.4%,每个模块均贡献了显著提升。

04 局限性

Note:以下局限性均为作者在论文中明确陈述(stated)。
Reward Hacking(奖励欺骗)

进度估计器 VLAC 可能将语义上看似接近完成的状态评分为高分,但环境的规则化成功判据(coordinate rules)仍将其标记为失败。策略因此学会"欺骗"进度估计器而非真正完成任务,导致环境成功率虚低而 critic 评分虚高。

环境成功判据与语义完成的不对齐

与上述问题对立的一面:部分情况下环境根据坐标规则判定任务成功,但语义上任务并未完整完成(如物体位置满足坐标阈值但方向错误)。这一"inherent difficulty in aligning rule-based simulation criteria with semantic task understanding"是当前框架的固有缺陷,需要更精细的 reward 设计来解决。

仅在模拟环境验证(推断自设计)

所有实验均在 LIBERO 仿真环境中进行。真实机器人部署面临额外挑战:视觉域差距、物理接触噪声、更稀疏且难以自动获取的成功信号。论文未报告真实世界实验,现实可行性有待验证(inferred from design)。

依赖 VLAC 进度估计器的质量(推断自设计)

整个框架的 reward 质量高度依赖 VLAC 基础模型对操作进度的理解能力。若 VLAC 对特定任务类型(如精细抓取、工具使用)的理解存在偏差,上游 reward 噪声将放大策略训练的误差(inferred from design)。