机器人 · Vision-Language-Action · 实时控制

VLASH:基于未来状态感知异步推理的实时 VLA

Real-Time VLAs via Future-State-Aware Asynchronous Inference
Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han  ·  2025

Vision-Language-Action (VLA) 模型推理速度慢,导致机器人控制出现"动作停顿"现象。VLASH 提出将推理与执行并行化,并通过滚动预测未来执行时刻的机器人状态来消除时序错位,从而在不损失精度的前提下实现实时控制。

arXiv 2025-11 双臂机器人实验 π0.5 & SmolVLA-450M 📄 arXiv:2512.01031 PDF 全文
关键词Vision-Language-ActionVLA实时控制异步推理未来状态预测时序错位动作量化机器人策略执行块稀疏注意力temporal offset augmentation双臂机器人

01 动机

当前 VLA 模型推理延迟高(数百毫秒),若采用同步推理,机器人在等待结果期间必须停止运动,造成"动作停顿",严重降低任务效率;而直接切换为异步推理(执行与推理并行),则会引入时序错位问题——模型推理时的机器人状态与实际执行时的状态不一致,导致控制不稳定甚至失败。

"Asynchronous inference… introduces a fundamental challenge: the robot's execution-time state diverges from the prediction-time state due to inference latency Δ, causing severe instability and degraded control accuracy."
问题示意图:同步 vs 异步推理的时序错位
图1:时序错位问题。同步推理中机器人在推理期间停止(上),导致"动作停顿";朴素异步推理(中)使机器人持续运动,但预测所用状态 s₁ 与实际执行时状态 s₃ 存在偏差(Δ=2步);VLASH(下)将模型条件化于滚动预测的未来状态 s_{t+Δ},消除时序错位。
17.4×最大反应延迟降低幅度(RTX 5090)
2.03×实际机器人最大速度提升(q=2 量化)
94%真实环境任务平均得分(vs 同步 83%)
高效微调时有效训练轨迹扩增倍数

02 方法

VLASH 由三个互补模块组成:(1) 未来状态滚动(Future State Rollforward),在推理前估算执行时刻的机器人状态;(2) 时序偏移增强(Temporal-Offset Augmentation),让模型在微调阶段学会应对不同推理延迟;(3) 动作量化(Action Quantization),将细粒度动作聚合为粗粒度宏动作,进一步加速执行。

VLASH 方法概览
图2:四种部署方式对比。从左到右:同步推理(机器人等待)、朴素异步推理(状态错位)、VLASH 异步推理(未来状态感知)、VLASH + 动作量化(进一步提速)。VLASH 通过预测执行时刻状态,使动作预测与实际执行完全对齐。

未来状态滚动(Future State Rollforward)

对于推理延迟为 Δ 步的情形,VLASH 利用已生成的动作序列将当前状态向前滚动,估算执行开始时刻的机器人状态:

"The robot state at the beginning of the execution interval st+Δ is determined by the current robot state st and the actions executed during the inference delay at:t+Δ−1."

例如当 Δ=2 时,有 s₃ = s₁ + a₁ + a₂。由于机器人关节运动学可精确建模,未来机器人状态可以精确预测(尽管环境状态仍不可知)。

时序偏移增强训练方案
图3:时序偏移增强(Temporal-Offset Augmentation)。微调时,对同一时刻的视觉观测固定不变,随机采样偏移量 δ∈{0,…,Δmax},构造训练对 (ot, st+δ, a(t+δ):(t+δ+H−1))。这迫使模型在预测时真正"关注状态输入"而非仅依赖视觉特征。

块稀疏注意力高效微调

为提升微调效率,VLASH 将多个偏移分支打包进同一序列并使用块稀疏注意力掩码(block-sparse attention masking):每个偏移分支的状态-动作 token 可以看到所有观测 token,但不同偏移分支之间相互隔离。对于 π0.5 而言,单次前向传播中约 700 个观测 token 搭配多个偏移(每个约 50 token),序列长度仅增加约 20%,但有效训练轨迹数量扩大 ,微调速度提升 3.26×

动作量化示意图
图4:动作量化(Action Quantization)。将连续 q 个细粒度动作聚合为一个宏动作:âi = aiq + aiq+1 + … + a(i+1)q−1。量化因子 q=2 时可在不损失精度的前提下实现 2.03× 的整体加速。

块稀疏注意力结构

块稀疏注意力掩码
图5:块稀疏注意力掩码。观测 token 之间正常互相关注;不同偏移的状态-动作 token 块均可关注观测,但彼此之间互不可见,确保多偏移独立性。

03 实验

实验在仿真(LIBERO、Kinetix)和真实双臂机器人平台上进行,基线模型包括 π0.5 和 SmolVLA-450M,对比方案包括同步推理、朴素异步推理。评估指标为任务成功率、执行时间、反应延迟。

LIBERO 仿真基准(π0.5)

推理延迟(步数) 朴素异步(成功率) VLASH(成功率) 加速比
0(同步基线) 96.8% 96.8% 1.00×
1 97.2% 1.17×
2 97.1% 1.31×
3 94.6% 1.47×
4 93.1% 1.45×

Kinetix 仿真基准(延迟4步)

方案 成功率 vs. 朴素异步
朴素异步推理 51.2%
VLASH 81.7% +30.5%

真实双臂机器人(π0.5)

方案 平均得分 完成时间 加速比
同步推理 83% 21.0 s 1.00×
VLASH(无量化) 94% 18.8 s 1.12×
VLASH + 量化 q=2 94% 2.03×
VLASH + 量化 q=3 89.3% 2.67×

反应延迟对比

GPU 同步推理延迟 VLASH 延迟 降低倍数
RTX 5090 530.4 ms 30.4 ms 17.4×
RTX 4090 536.1 ms 36.1 ms 14.9×
RTX 5070 564.1 ms 64.1 ms 8.8×
Kinetix 基准实验结果
图6:Kinetix 仿真基准结果。在不同执行 horizon 下,VLASH 的成功率(蓝色)紧跟同步基线(绿色),而朴素异步(橙色)随 horizon 增大性能急剧下降。延迟 4 步时,VLASH 以 81.7% 对比朴素异步的 51.2%,提升 30.5%。

消融实验要点

04 局限性

说明:论文在结论与方法部分对以下局限性有所提及;标注"(推断)"的条目为根据设计逻辑推断,非作者明确陈述。
较大推理延迟下精度有所下降(已陈述)

在 LIBERO 仿真中,延迟 3~4 步时成功率从 97% 降至约 93~94%;SmolVLA-450M 的方差更大,表明不同架构对时序偏移的鲁棒性存在差异。

动作量化存在速度–精度权衡(已陈述)

量化因子 q=2 时无明显精度损失(2.03× 加速),但 q=3 时精度下降约 4.7%(2.67× 加速)。量化超参数需要针对具体任务单独调整。

仅能预测机器人自身状态,环境状态不可知(已陈述)

论文明确指出,未来机器人状态可通过运动学精确滚动,但"未来环境状态仍不可知"。对于物体频繁被外力扰动或场景动态变化激烈的任务,效果可能受限。

依赖精确的机器人运动学模型(推断)

状态滚动基于 s_{t+Δ} = s_t + a_{t:t+Δ−1} 的关节运动学。若机器人存在系统误差、关节柔性或滑动,滚动预测误差可能累积,影响较大延迟下的对齐精度。

微调仍需一定计算成本(推断)

尽管块稀疏注意力将微调速度提升 3.26×,VLASH 仍需对预训练 VLA 进行专项微调(实验中收敛略慢于标准微调)。对于资源有限的场景,计算成本仍是考量因素。