Scaling Verification Can Be More Effective than Scaling Policy Learning for VLA Alignment

01 动机

大规模预训练的 VLA（如 π0、π0.5）具备强大的操作能力，但在将自然语言指令转化为精确动作时仍频繁出现"intention-action gap"。扩大策略预训练规模（更多数据、更大模型）虽然有效，但代价极高。那么，能否在推理时利用额外算力来弥合这一鸿沟？

"Can we enable VLAs to leverage additional computation at test time to improve alignment between generated actions and provided language instructions?"

**图1 · Test-Time Scaling Law for Embodied Instruction Following。** 随着动作候选数 M 增大，CoVer 的 oracle 和实际 top-1 成功率均持续上升，说明测试时验证存在明确的 scaling law，且验证器能有效从更多候选中识别最优动作。

+22%SIMPLER 域内成功率（vs. 扩大策略训练）

+13%SIMPLER 域外成功率（OOD）

+45%真实机器人实验成功率提升

+13.9%PolaRiS 基准任务进度提升

Hierarchical Test-Time Verification Pipeline — **图2 · 分层测试时验证总览。** CoVer-VLA 在语言层面生成 K 个指令 rephrase，在动作层面对每个 rephrase 采样 M 个动作候选，最终通过 contrastive verifier 分层选择最优动作块（action chunk）执行。

02 方法

CoVer-VLA 将验证与策略生成解耦：基础策略（如 π0）负责生成动作， CoVer 作为独立的 1B-param contrastive verifier 在测试时对候选动作打分。整体流程分为语言层优化和动作层优化两个阶段，并通过 Boot-Time 预计算将 VLM 延迟移至离线。

CoVer Training Strategy — **图3 · CoVer 训练策略。** CoVer 使用 SigLIP2 视觉编码器与语言编码器（均冻结），以及专门的 Transformer action encoder。训练采用双向 InfoNCE 对比损失，以批内其他样本为负例，无需显式的失败标签。在 Bridge V2 数据集的 2000 万条样本上训练（16× 指令增广），8 块 H200 GPU，2000 步。

语言层优化：Rephrase 选择

在执行前（boot-time），使用 VLM 对原始指令生成 K 个语义等价但表达多样的 rephrase，并预计算各 rephrase 诱导的动作分布嵌入。推理时，CoVer 选择与原始指令语义最对齐的 rephrase—— 通过比较各候选 rephrase 诱导的动作分布与原始指令的余弦相似度实现。 Boot-time 预计算使 VLM 推理完全移至离线，不增加在线延迟。

动作层优化：Contrastive Verifier 动作选择

对选定的 rephrase，基础策略采样 M 个动作候选（action chunk）。 CoVer 对每个候选打出对齐分数，选分最高者执行。验证器同时接收视觉观测、语言指令和动作序列，输出一个标量分数衡量三者语义一致性。实际部署使用 3 个 verifier 集成 以提升鲁棒性。

Test-Time Verification Pipeline Detail — **图4 · 测试时验证流水线细节。** K×M 个提案经过 CoVer 联合打分，再经过分层选择（先语言层，后动作层）确定最终执行动作。 action encoder 带来的延迟仅约 8ms；16 候选完整采样+验证端到端约 453ms（≈2.2Hz 控制频率）。

对比训练与指令增广

CoVer 的训练基于双向 InfoNCE 对比损失，使用 16× 合成指令增广（由 VLM 对同一动作轨迹生成多种表述），将同轨迹的不同指令表述视为正例，批内其他样本为负例，无需任何失败演示标签。这一设计使 CoVer 能从纯成功轨迹数据中学习指令-动作的语义对齐。

03 实验

实验在三个平台进行：仿真 SIMPLER 基准（域内+域外）、PolaRiS 真实机器人基准，以及 WidowX 真实机器人任务。基础策略为 π0 和 π0.5，对比方法包括扩大策略预训练数据量、RoboMonkey 等测试时扩展基线。

SIMPLER 基准结果

方法	ID Avg (%)	OOD Avg (%)
π0（基线）	41.5	29.7
π0 w/ Inst. Aug.（训练时增广）	44.0	48.7
π0 + CoVer（本文，无 rephrase）	57.0	61.0
π0 (rephrase) + CoVer（本文，完整）	65.5	62.0

各任务细分（ID）：Carrot on Plate 52±8%，Eggplant in Basket 95±2%，Spoon on Towel 59±5%，Block Stacking 56±0%。

SIMPLER Evaluation Results — **图5 · SIMPLER 各任务成功率对比。** CoVer 在域内（ID）和域外（OOD）任务上均大幅超越基线，尤其在 OOD 场景增益显著，说明验证机制有效提升了模型对未见过指令变体的泛化能力。

PolaRiS 真实机器人基准

在 PolaRiS 基准的三项任务（PanClean、BlockStack、FoodBussing）上， π0.5 + CoVer 相比 π0.5 基线实现 13.9% 任务进度提升 和 9.3% 成功率提升。

真实机器人实验（WidowX）

Real-World Evaluation Results — **图6 · WidowX 真实机器人实验结果。** 两项任务均包含域外对象和光照变化。π0 基线在挑战性场景下成功率为 0%， CoVer-VLA 通过测试时验证实现 **45% 总体成功率提升**。

Verifier 规模与集成实验

Verifier Scaling Results — **图7 · Verifier Scaling 结果。** Top-1 检索精度随模型规模（250M→1B）单调提升，3 个 verifier 集成在鲁棒性与推理开销之间取得最佳平衡。

消融实验

关键消融结论：

单独训练时指令增广：ID 从 41.5% 提升至 44%，收益有限；
随机选择 rephrase（无验证）：ID 略升至 42.3%，但 OOD 下降（29.7→28.7%），任务间方差极大（1%–78%）；
CoVer 与策略扩展互补：在更强基础策略（π0.5）上叠加 CoVer 仍有显著增益，说明两者不互斥。

Task execution examples — **图8 · 任务执行示例。** 展示 PolaRiS、SIMPLER 和 Bridge-V2 环境中 CoVer-VLA 与基线的执行对比，可见 CoVer 显著减少了动作与指令语义不一致的错误。

04 局限性

说明：本文无独立的 Limitations 章节。以下条目中，标注「stated」的来自论文正文的明确表述，标注「inferred」的由方法设计推断。

计算开销（stated）

CoVer 每时间步需采样 K×M 个动作候选并逐一打分，端到端延迟约 453ms（≈2.2Hz）。尽管通过并行化和 boot-time 预计算缓解了部分开销，对实时高频控制场景仍构成限制。论文指出未来工作将探索"more efficient architectures for both base policy and verifier to further reduce latency"。

Boot-Time Rephrase 质量依赖（inferred）

方法的语言层优化依赖 VLM 在初始化阶段生成高质量的指令 rephrase。对于 VLM 未见过的场景或极端歧义指令，rephrase 质量可能不稳定，论文对此未做充分消融分析。

Action Chunk 级别验证（inferred）

CoVer 以动作块（action chunk）而非单步动作为粒度进行验证，可能限制对需要精细步级别纠正的任务的适用性。

训练数据局限性（inferred）

CoVer 在 Bridge V2 数据集上训练，跨数据集迁移能力（如 DROID 等其他分布）尚未充分验证。论文在 PolaRiS 等外部基准上已有正面结果，但系统性跨域评估仍缺失。