机器人 · Robotics · arXiv 2025

AsyncVLA

Asynchronous Flow Matching for Vision-Language-Action Models
Yuhua Jiang · Shuang Cheng · Yan Ding · Feifei Gao · Biqing Qi  |  清华大学 · 上海人工智能实验室 · 浙江大学 · Lumos Robotics

VLA 模型(Vision-Language-Action)在机器人操控中取得显著进展,但现有基于 flow matching 的方法采用统一时间步对所有 action token 同步去噪,缺乏对动作质量的自我感知与纠错能力。AsyncVLA 引入异步流匹配框架:先用同步 SFM 生成初始动作,再由置信度评估器识别低置信度 token,最后通过 AFM 有选择地重新生成这些 token,实现 VLA 模型的自校正能力,显著提升长程任务成功率。

2025 年 11 月投稿 Qwen2.5-VL-3B 骨干 cs.RO · cs.AI · cs.LG 📄 arXiv:2511.14148 GitHub 代码
VLA flow matching 异步推理 机器人操作 confidence rating action refinement 自校正 机器人控制

01 动机

同步流匹配(SFM)对所有 action token 使用统一去噪时间步,既无法感知动作上下文,也缺乏自我纠错机制——一旦某个 token 产生偏差,长程任务中的错误会级联累积,导致任务失败。

"Conventional VLA models with synchronous flow matching use a rigid, monolithic denoising schedule that lacks action context awareness and self-correction mechanisms, making it unstable for long-horizon tasks where single errors cascade into failure."
AsyncVLA 框架概览
图 1:AsyncVLA 框架三组件概览。(a) SFM 对所有 action token 使用统一时间步 t,从噪声 (t=1) 同步生成动作 (t=0)。(b) Confidence rater 评估 token 级置信度,将低置信 token 掩码,为 AFM 选择异步噪声。(c) AFM 为每个 token 动态分配独立的 FM 时间步,依据置信度选择性地非均匀重新生成动作。SFM 与 AFM 共享同一个统一模型的参数。
97.4%LIBERO 平均成功率
70.8%WidowX benchmark 成功率
87.0%真实机器人 4 任务平均
95.9 ms单步推理时间(RTX 4090)

02 方法

AsyncVLA 采用两阶段推理:第一阶段,同步流匹配(SFM)从纯高斯噪声出发,经 10 步 Euler 积分生成初步动作序列;第二阶段,置信度评估器(Confidence Rater)对每个 token 打分,将低置信 token 重置为高斯噪声后,异步流匹配(AFM)仅对这部分 token 再次去噪,高置信 token 保持不变以提供上下文约束。整个框架使用单个统一模型,SFM 与 AFM 共享参数。

AsyncVLA 自校正示意
图 2:AsyncVLA 在 LIBERO-Long 任务上的自校正能力展示。上排为 SFM 第一轮生成的动作轨迹,下排为 AFM 重新生成后的修正轨迹——低置信度的偏差动作被识别并纠正。

Confidence Rater(置信度评估器)

Confidence Rater 由 4 层 Transformer 加线性输出头组成(308M 参数,占总参数量 4.08B 的 7.56%),以视觉语言隐状态与 SFM 生成的动作为输入,输出每个 token 的置信度分数 q∈[0,1]。训练时使用基于相对 MSE 的伪标签:

"qt:t+L = 1 − α − β × (et:t+L − min{el}) / (max{el} − min{el} + ε)"

参数 α=0.01,β=0.98,确保标签范围始终在 [0.01, 0.99] 之内。置信度低于阈值 T=0.5 的 token 被掩码,交由 AFM 重新生成。

Asynchronous Flow Matching(异步流匹配)

AFM 推理时,未掩码 token(ml=0)直接保留 SFM 输出,掩码 token(ml=1)重新采样高斯噪声并执行 10 步 Euler 更新。为让 Transformer 同时处理混合去噪状态,引入异步时间嵌入:对 τ⊙m 进行 sinusoidal 编码,区分已完成去噪与仍需去噪的 token。通过复用 SFM 阶段的 vision-language KV-cache,AFM 阶段仅需 10.1 ms(vs. SFM 的 83.2 ms),效率极高。

统一训练策略

以 SFM 为"全掩码 AFM 的特殊情况"进行统一训练:随机 Bernoulli 采样动作掩码,将 SFM 与 AFM 纳入同一训练过程,实现隐式数据增强。未掩码的上下文 token 加入小幅噪声扰动(σc=0.05),缩小训练与测试分布的差距;FM 时间步从 Beta(1.5, 1) 分布采样,重点覆盖噪声较多的步骤。

03 实验

评估涵盖仿真 benchmark(LIBERO 4 套件、WidowX、Google Robot)与真实世界机器人(AgileX PiPER,4 项任务各 50 次试验)。骨干为 Qwen2.5-VL-3B-Instruct,SFM 与 AFM 各 10 步去噪。

LIBERO Benchmark 成功率

方法SpatialObjectGoalLong平均
π0.599.699.798.390.096.9
dVLA98.598.696.891.896.4
Discrete-Diffusion VLA98.999.397.689.496.3
AsyncVLA(本文)99.499.899.291.297.4

WidowX Robot Benchmark

方法平均成功率
UD-VLA62.5%
OpenVLA-OFT
AsyncVLA(本文)70.8%

真实机器人(AgileX PiPER,50 次/任务)

真实机器人任务
图 4:AgileX PiPER 机器人真实世界评测的四项任务(从左到右):(1) 将胡萝卜放入碗中;(2) 从笔筒中取出钢笔;(3) 将水从杯中倒入碗中;(4) 将勺子放到盘子上。
任务OpenVLA-OFTπ0.5AsyncVLA(本文)
Carrot→Bowl72.0%88.0%94.0%
Pen Extraction72.0%84.0%86.0%
Pour Water60.0%72.0%82.0%
Spoon→Plate58.0%64.0%86.0%
平均65.5%77.0%87.0%

训练效率(仅用 25% LIBERO-Spatial 数据)

训练损失对比
图 3a:使用四分之一 LIBERO-Spatial 数据时的训练损失曲线对比。AsyncVLA(0.0042)明显低于 SFM(0.0076)。
训练过程成功率对比
图 3b:训练过程中 LIBERO-Spatial 测试集成功率对比。AsyncVLA 于 200 epoch 达 95.8%,SFM 在 140 epoch 后停止提升,仅到 86.2%。

Ablation Study(WidowX 平均成功率)

配置WidowX 平均成功率
SFM only (10 steps)47.9%
SFM only (20 steps)51.1%
AFM without confidence rater62.5%
With TSI labeling64.6%
Delta refinement variant61.5%
Direct refinement variant62.5%
Without unified training7.3%
Full AsyncVLA70.8%

关键发现:基于 MSE 的置信度标签(70.8%)显著优于任务成功指示符标签(TSI,64.6%),表明稠密监督信号对 token 级精细校正至关重要。去掉统一训练策略后成功率骤降至 7.3%,说明该训练设计不可或缺。

推理时间分解(RTX 4090,2 路相机)

组件耗时(ms)占比
SFM(10 步)83.2 ± 1.486.8%
Confidence Rater2.6 ± 0.12.7%
AFM(10 步,KV-cache 复用)10.1 ± 0.310.5%
总计95.9 ± 1.6100%

04 局限性

Note: 以下局限性均由作者在论文中明确陈述(stated by authors)。
相对置信度标签在全局失效场景下可能崩溃

置信度评估器使用的是 chunk 内相对 MSE 归一化伪标签。当整个 action chunk 的预测都存在较大误差时,相对排序仍能识别"相对较好"的 token,但无法感知绝对误差量级。作者指出需要结合绝对误差感知的校准方案解决此类 corner case。

经验验证局限于机器人动作生成领域

AsyncVLA 的异步流匹配框架在设计上具有通用性,但当前实验验证仅覆盖机器人操控任务(LIBERO、WidowX、Google Robot、AgileX PiPER),尚未在语言生成、图像生成等其他序列任务上验证其有效性。

额外 AFM 推理阶段引入约 15% 延迟开销

尽管 AFM 通过 KV-cache 复用将额外延迟控制在 10.1 ms(总推理 95.9 ms),相比 SFM 单独推理(83.2 ms)仍增加约 15.3% 的延迟。在对实时性要求极高的场景(如高频控制)中,该开销需酌情权衡。(此条为从设计中推断,inferred from design。)