VLASH：基于未来状态感知异步推理的实时 VLA

01 动机

当前 VLA 模型推理延迟高（数百毫秒），若采用同步推理，机器人在等待结果期间必须停止运动，造成"动作停顿"，严重降低任务效率；而直接切换为异步推理（执行与推理并行），则会引入时序错位问题——模型推理时的机器人状态与实际执行时的状态不一致，导致控制不稳定甚至失败。

"Asynchronous inference… introduces a fundamental challenge: the robot's execution-time state diverges from the prediction-time state due to inference latency Δ, causing severe instability and degraded control accuracy."

问题示意图：同步 vs 异步推理的时序错位 — **图1：时序错位问题。**同步推理中机器人在推理期间停止（上），导致"动作停顿"；朴素异步推理（中）使机器人持续运动，但预测所用状态 s₁ 与实际执行时状态 s₃ 存在偏差（Δ=2步）；VLASH（下）将模型条件化于滚动预测的未来状态 s_{t+Δ}，消除时序错位。

17.4×最大反应延迟降低幅度（RTX 5090）

2.03×实际机器人最大速度提升（q=2 量化）

94%真实环境任务平均得分（vs 同步 83%）

5×高效微调时有效训练轨迹扩增倍数

02 方法

VLASH 由三个互补模块组成：(1) 未来状态滚动（Future State Rollforward），在推理前估算执行时刻的机器人状态；(2) 时序偏移增强（Temporal-Offset Augmentation），让模型在微调阶段学会应对不同推理延迟；(3) 动作量化（Action Quantization），将细粒度动作聚合为粗粒度宏动作，进一步加速执行。

VLASH 方法概览 — **图2：四种部署方式对比。**从左到右：同步推理（机器人等待）、朴素异步推理（状态错位）、VLASH 异步推理（未来状态感知）、VLASH + 动作量化（进一步提速）。VLASH 通过预测执行时刻状态，使动作预测与实际执行完全对齐。

未来状态滚动（Future State Rollforward）

对于推理延迟为 Δ 步的情形，VLASH 利用已生成的动作序列将当前状态向前滚动，估算执行开始时刻的机器人状态：

"The robot state at the beginning of the execution interval s_t+Δ is determined by the current robot state s_t and the actions executed during the inference delay a_t:t+Δ−1."

例如当 Δ=2 时，有 s₃ = s₁ + a₁ + a₂。由于机器人关节运动学可精确建模，未来机器人状态可以精确预测（尽管环境状态仍不可知）。

时序偏移增强训练方案 — **图3：时序偏移增强（Temporal-Offset Augmentation）。**微调时，对同一时刻的视觉观测固定不变，随机采样偏移量 δ∈{0,…,Δ_max}，构造训练对 (o_t, s_t+δ, a_{(t+δ):(t+δ+H−1)})。这迫使模型在预测时真正"关注状态输入"而非仅依赖视觉特征。

块稀疏注意力高效微调

为提升微调效率，VLASH 将多个偏移分支打包进同一序列并使用块稀疏注意力掩码（block-sparse attention masking）：每个偏移分支的状态-动作 token 可以看到所有观测 token，但不同偏移分支之间相互隔离。对于 π0.5 而言，单次前向传播中约 700 个观测 token 搭配多个偏移（每个约 50 token），序列长度仅增加约 20%，但有效训练轨迹数量扩大 5×，微调速度提升 3.26×。

动作量化示意图 — **图4：动作量化（Action Quantization）。**将连续 q 个细粒度动作聚合为一个宏动作：â_i = a_iq + a_iq+1 + … + a_(i+1)q−1。量化因子 q=2 时可在不损失精度的前提下实现 2.03× 的整体加速。

块稀疏注意力结构

**图5：块稀疏注意力掩码。**观测 token 之间正常互相关注；不同偏移的状态-动作 token 块均可关注观测，但彼此之间互不可见，确保多偏移独立性。

03 实验

实验在仿真（LIBERO、Kinetix）和真实双臂机器人平台上进行，基线模型包括 π0.5 和 SmolVLA-450M，对比方案包括同步推理、朴素异步推理。评估指标为任务成功率、执行时间、反应延迟。

LIBERO 仿真基准（π0.5）

推理延迟（步数）	朴素异步（成功率）	VLASH（成功率）	加速比
0（同步基线）	96.8%	96.8%	1.00×
1	—	97.2%	1.17×
2	—	97.1%	1.31×
3	—	94.6%	1.47×
4	—	93.1%	1.45×

Kinetix 仿真基准（延迟4步）

方案	成功率	vs. 朴素异步
朴素异步推理	51.2%	—
VLASH	81.7%	+30.5%

真实双臂机器人（π0.5）

方案	平均得分	完成时间	加速比
同步推理	83%	21.0 s	1.00×
VLASH（无量化）	94%	18.8 s	1.12×
VLASH + 量化 q=2	94%	—	2.03×
VLASH + 量化 q=3	89.3%	—	2.67×

反应延迟对比

GPU	同步推理延迟	VLASH 延迟	降低倍数
RTX 5090	530.4 ms	30.4 ms	17.4×
RTX 4090	536.1 ms	36.1 ms	14.9×
RTX 5070	564.1 ms	64.1 ms	8.8×

Kinetix 基准实验结果 — **图6：Kinetix 仿真基准结果。**在不同执行 horizon 下，VLASH 的成功率（蓝色）紧跟同步基线（绿色），而朴素异步（橙色）随 horizon 增大性能急剧下降。延迟 4 步时，VLASH 以 81.7% 对比朴素异步的 51.2%，提升 30.5%。

消融实验要点

时序偏移增强是核心——去除后模型在较大延迟下性能大幅下滑；
块稀疏注意力微调使单步训练速度提升 3.26×，最终精度与标准微调相当（30K 步时 96.6%）；
SmolVLA-450M 在延迟 3 步时达到 79.06% 成功率、1.35× 加速，验证了方法的跨模型泛化性；
VLASH 还解锁了此前不可能完成的任务：乒乓球对打和"打地鼠"等高速反应场景。

04 局限性

说明：论文在结论与方法部分对以下局限性有所提及；标注"（推断）"的条目为根据设计逻辑推断，非作者明确陈述。

较大推理延迟下精度有所下降（已陈述）

在 LIBERO 仿真中，延迟 3~4 步时成功率从 97% 降至约 93~94%；SmolVLA-450M 的方差更大，表明不同架构对时序偏移的鲁棒性存在差异。

动作量化存在速度–精度权衡（已陈述）

量化因子 q=2 时无明显精度损失（2.03× 加速），但 q=3 时精度下降约 4.7%（2.67× 加速）。量化超参数需要针对具体任务单独调整。

仅能预测机器人自身状态，环境状态不可知（已陈述）

论文明确指出，未来机器人状态可通过运动学精确滚动，但"未来环境状态仍不可知"。对于物体频繁被外力扰动或场景动态变化激烈的任务，效果可能受限。

依赖精确的机器人运动学模型（推断）

状态滚动基于 s_{t+Δ} = s_t + a_{t:t+Δ−1} 的关节运动学。若机器人存在系统误差、关节柔性或滑动，滚动预测误差可能累积，影响较大延迟下的对齐精度。

微调仍需一定计算成本（推断）

尽管块稀疏注意力将微调速度提升 3.26×，VLASH 仍需对预训练 VLA 进行专项微调（实验中收敛略慢于标准微调）。对于资源有限的场景，计算成本仍是考量因素。