机器人 · Robotics · 2026

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

测试时验证扩展比扩大策略预训练更高效地提升 VLA 指令对齐
Jacky Kwok†, Xilun Zhang†, Mengdi Xu, Yuejiang Liu§, Azalia Mirhoseini§, Chelsea Finn§, Marco Pavone§  ·  Stanford University & NVIDIA Research  ·  arXiv 2602.12281

现有视觉语言动作模型(VLA)在执行机器人任务时存在严重的"intention-action gap"—— 生成的动作与自然语言指令语义不一致,导致高昂的失败代价。 本文提出 CoVer(Contrastive Verifier),一种在测试时对动作候选进行分层验证的框架, 无需修改基础策略即可显著提升指令跟随能力, 并证明测试时验证的扩展效率远优于增大策略预训练规模。

arXiv · Feb 2026 1B-param Verifier SIMPLER + Real-World 📄 arXiv:2602.12281 PDF
VLA 机器人操作 test-time scaling contrastive verifier 指令对齐 instruction following action verification CoVer 视觉语言动作模型

01 动机

大规模预训练的 VLA(如 π0、π0.5)具备强大的操作能力,但在将自然语言指令转化为精确动作时仍频繁出现"intention-action gap"。 扩大策略预训练规模(更多数据、更大模型)虽然有效,但代价极高。 那么,能否在推理时利用额外算力来弥合这一鸿沟?

"Can we enable VLAs to leverage additional computation at test time to improve alignment between generated actions and provided language instructions?"
Test-Time Scaling Law
图1 · Test-Time Scaling Law for Embodied Instruction Following。 随着动作候选数 M 增大,CoVer 的 oracle 和实际 top-1 成功率均持续上升, 说明测试时验证存在明确的 scaling law,且验证器能有效从更多候选中识别最优动作。
+22%SIMPLER 域内成功率(vs. 扩大策略训练)
+13%SIMPLER 域外成功率(OOD)
+45%真实机器人实验成功率提升
+13.9%PolaRiS 基准任务进度提升
Hierarchical Test-Time Verification Pipeline
图2 · 分层测试时验证总览。 CoVer-VLA 在语言层面生成 K 个指令 rephrase,在动作层面对每个 rephrase 采样 M 个动作候选, 最终通过 contrastive verifier 分层选择最优动作块(action chunk)执行。

02 方法

CoVer-VLA 将验证与策略生成解耦:基础策略(如 π0)负责生成动作, CoVer 作为独立的 1B-param contrastive verifier 在测试时对候选动作打分。 整体流程分为语言层优化和动作层优化两个阶段,并通过 Boot-Time 预计算将 VLM 延迟移至离线。

CoVer Training Strategy
图3 · CoVer 训练策略。 CoVer 使用 SigLIP2 视觉编码器与语言编码器(均冻结),以及专门的 Transformer action encoder。 训练采用双向 InfoNCE 对比损失,以批内其他样本为负例,无需显式的失败标签。 在 Bridge V2 数据集的 2000 万条样本上训练(16× 指令增广),8 块 H200 GPU,2000 步。

语言层优化:Rephrase 选择

在执行前(boot-time),使用 VLM 对原始指令生成 K 个语义等价但表达多样的 rephrase, 并预计算各 rephrase 诱导的动作分布嵌入。推理时,CoVer 选择与原始指令语义最对齐的 rephrase—— 通过比较各候选 rephrase 诱导的动作分布与原始指令的余弦相似度实现。 Boot-time 预计算使 VLM 推理完全移至离线,不增加在线延迟

动作层优化:Contrastive Verifier 动作选择

对选定的 rephrase,基础策略采样 M 个动作候选(action chunk)。 CoVer 对每个候选打出对齐分数,选分最高者执行。 验证器同时接收视觉观测、语言指令和动作序列,输出一个标量分数衡量三者语义一致性。 实际部署使用 3 个 verifier 集成 以提升鲁棒性。

Test-Time Verification Pipeline Detail
图4 · 测试时验证流水线细节。 K×M 个提案经过 CoVer 联合打分,再经过分层选择(先语言层,后动作层)确定最终执行动作。 action encoder 带来的延迟仅约 8ms;16 候选完整采样+验证端到端约 453ms(≈2.2Hz 控制频率)。

对比训练与指令增广

CoVer 的训练基于双向 InfoNCE 对比损失,使用 16× 合成指令增广(由 VLM 对同一动作轨迹生成多种表述), 将同轨迹的不同指令表述视为正例,批内其他样本为负例,无需任何失败演示标签。 这一设计使 CoVer 能从纯成功轨迹数据中学习指令-动作的语义对齐。

03 实验

实验在三个平台进行:仿真 SIMPLER 基准(域内+域外)、PolaRiS 真实机器人基准,以及 WidowX 真实机器人任务。 基础策略为 π0 和 π0.5,对比方法包括扩大策略预训练数据量、RoboMonkey 等测试时扩展基线。

SIMPLER 基准结果

方法 ID Avg (%) OOD Avg (%)
π0(基线) 41.5 29.7
π0 w/ Inst. Aug.(训练时增广) 44.0 48.7
π0 + CoVer(本文,无 rephrase) 57.0 61.0
π0 (rephrase) + CoVer(本文,完整) 65.5 62.0

各任务细分(ID):Carrot on Plate 52±8%,Eggplant in Basket 95±2%,Spoon on Towel 59±5%,Block Stacking 56±0%。

SIMPLER Evaluation Results
图5 · SIMPLER 各任务成功率对比。 CoVer 在域内(ID)和域外(OOD)任务上均大幅超越基线,尤其在 OOD 场景增益显著, 说明验证机制有效提升了模型对未见过指令变体的泛化能力。

PolaRiS 真实机器人基准

在 PolaRiS 基准的三项任务(PanClean、BlockStack、FoodBussing)上, π0.5 + CoVer 相比 π0.5 基线实现 13.9% 任务进度提升9.3% 成功率提升

真实机器人实验(WidowX)

Real-World Evaluation Results
图6 · WidowX 真实机器人实验结果。 两项任务均包含域外对象和光照变化。π0 基线在挑战性场景下成功率为 0%, CoVer-VLA 通过测试时验证实现 45% 总体成功率提升

Verifier 规模与集成实验

Verifier Scaling Results
图7 · Verifier Scaling 结果。 Top-1 检索精度随模型规模(250M→1B)单调提升,3 个 verifier 集成在鲁棒性与推理开销之间取得最佳平衡。

消融实验

关键消融结论:

Task execution examples
图8 · 任务执行示例。 展示 PolaRiS、SIMPLER 和 Bridge-V2 环境中 CoVer-VLA 与基线的执行对比, 可见 CoVer 显著减少了动作与指令语义不一致的错误。

04 局限性

说明:本文无独立的 Limitations 章节。以下条目中,标注「stated」的来自论文正文的明确表述,标注「inferred」的由方法设计推断。
计算开销(stated)

CoVer 每时间步需采样 K×M 个动作候选并逐一打分,端到端延迟约 453ms(≈2.2Hz)。 尽管通过并行化和 boot-time 预计算缓解了部分开销,对实时高频控制场景仍构成限制。 论文指出未来工作将探索"more efficient architectures for both base policy and verifier to further reduce latency"。

Boot-Time Rephrase 质量依赖(inferred)

方法的语言层优化依赖 VLM 在初始化阶段生成高质量的指令 rephrase。 对于 VLM 未见过的场景或极端歧义指令,rephrase 质量可能不稳定, 论文对此未做充分消融分析。

Action Chunk 级别验证(inferred)

CoVer 以动作块(action chunk)而非单步动作为粒度进行验证, 可能限制对需要精细步级别纠正的任务的适用性。

训练数据局限性(inferred)

CoVer 在 Bridge V2 数据集上训练,跨数据集迁移能力(如 DROID 等其他分布) 尚未充分验证。论文在 PolaRiS 等外部基准上已有正面结果,但系统性跨域评估仍缺失。