Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

01 Motivation

离散扩散 VLA（dVLA，如 Dream-VLA、DD-VLA）通过并行迭代去噪输出动作 token，天然继承 VLM 的预训练知识且无需独立动作头；但其双向注意力机制导致每步前向传播均需重新计算 Key-Value（KV）表示，无法复用 KV 缓存，从而产生极低的单次前向效率。当前 dVLA 的执行频率远低于物理机器人所需的 30 Hz 实时控制标准。

"current dVLAs still suffer from a fundamental limitation. Their inference speed is slow, with an execution frequency that is far below the real-time requirements of physical robotic systems (typically around 30 Hz)."

Speed/Success Rate trade-off — **图 1 速度与成功率权衡。左（同类对比）：**在 DD-VLA 和 Dream-VLA 两个基底模型上，Fast-dVLA 分别实现 **2.6×** 和 **3.2× 加速**，同时成功率持平或略升，优于 BlockDiff 和 Fast-dLLM 等方案。**右（跨范式对比）：**Fast-dVLA 在 LIBERO 上同时达到与连续流匹配方法（π₀.₅）相当的频率（~30 Hz）和更高的成功率，兼具 dVLA 的内在优势。

4.1×最大推理加速比（DD-VLA on LIBERO）

30 Hz达到实时控制频率

96.6%LIBERO 平均成功率（Fast-dVLA + DD-VLA）

4.54CALVIN ABCD→D avg. len.（UD-VLA + Fast-dVLA）

Decoding paradigm comparison — **图 2 四类离散解码范式对比。**（a）自回归 VLA：每步一个 token，前向次数多但 forward 快；（b）dVLA：全序列一次并行去噪，forward 次数少但每次 forward 慢；（c）Block Diffusion：分块串行，适中；（d）Fast-dVLA（ours）：forward 次数少且每次 forward 快，**综合推理速度最快**，同时保留块间并行性。

02 Method

Fast-dVLA 的核心是将全序列双向注意力替换为分块因果注意力（block-wise causal attention），并结合扩散强迫（diffusion forcing）实现块间并行解码。训练时采用非对称蒸馏从已微调的双向 dVLA 高效迁移能力；推理时设计流水线并行调度算法，平衡解码可靠性与吞吐量。

3.1 隐式块级自回归趋势的发现

通过可视化 Dream-VLA 在不同去噪步骤中各 token 位置的解码概率（Figure 3），作者发现：尽管 dVLA 使用双向注意力，其解码过程在宏观上仍呈现从左到右的块级自回归模式——时间序列中靠前的动作块倾向于在更早的去噪迭代中被解码。这一观察源于两个原因：①dVLA 骨干初始化自自回归 VLM，天然保留了自回归特性；②不同时间步的动作存在固有的时序依赖。该发现表明，经过微调的双向 dVLA 可被直接"强制"遵循分块扩散解码方式。

3.2 分块注意力与 KV 缓存复用

将长度为 L 的动作 token 序列划分为 N 个等大小的块，每个块仅能 attend 到其之前所有块的 token（因果限制），同一块内 token 可互相 attend（块内双向）。一旦某块解码完成，其 KV 状态即固定不变，后续解码步骤可直接复用缓存的 KV，无需重新计算，彻底解决了双向注意力下 KV 随去噪步变化的问题（Figure 4b 验证了缓存相似度接近 1.0）。

为实现块间并行解码，论文借鉴扩散强迫思想，对不同块赋予单调递增的噪声水平（t₁ < t₂ < ⋯ < tₙ）：靠前的块噪声更少（信息更完整），靠后的块仍高度遮蔽，从而允许模型在精化前序块的同时并发去噪后续块，实现块间并行而不损害时序一致性。

3.3 非对称蒸馏（Asymmetric Distillation）

直接从头训练代价高昂。论文提出从已任务微调的双向 dVLA（教师）蒸馏 Fast-dVLA（学生）：教师以全局视角（bidirectional attention，看到所有块）预测目标，学生以块因果视角（causal block attention，仅看到前缀块）逼近教师输出，二者结构共享但注意力模式不同——这种"不对称"使蒸馏损失 ℒ_AD 能高效传递教师的整体规划能力。实验显示，ℒ_AD 仅需约 2,000 步即可收敛，是从头训练所需步骤的约 1/10（Figure 8）。蒸馏采用 LoRA（rank=32），仅训练 LoRA 分支以保留骨干的视觉语言预训练知识。

3.4 流水线并行解码（Pipelined Parallel Decoding）

推理时维护一条动态增长的块流水线（Figure 6），区分"半激活"与"全激活"两种状态：当前一块的解码完成比例超过阈值 τ_add 时，新块被引入为半激活状态；当前一块完成比例超过 τ_act 时，新块升为全激活状态。全激活块采用置信度自适应的激进解码策略（按置信度排名，每步至少解码 ⌊剩余 token/n⌋ 个），兼顾吞吐与可靠性。

03 Experiments

在 CALVIN（长时序操控）、LIBERO（4 个分套件）、SimplerEnv（真实视觉迁移）三个仿真 benchmark 以及真实双臂 AgileX 平台上评估。基底 dVLA 模型选取 Dream-VLA、DD-VLA（代表型 dVLA）和 UD-VLA（统一多模态 dVLA）。

LIBERO：加速策略对比（RQ1）

方法	Spatial	Goal	Object	Long	Avg.	速度 (tok/s)
Dream-VLA	0.902	0.920	0.880	0.720	0.856	98.8 (×1.0)
+ Fast-dLLM	0.884	0.894	0.834	0.702	0.828	183.2 (×1.9)
+ Block Diffusion	0.918	0.904	0.886	0.722	0.858	181.7 (×1.8)
+ Fast-dVLA (ours)	0.912	0.920	0.902	0.746	0.870	313.1 (×3.2)
DD-VLA	0.972	0.986	0.974	0.920	0.963	152.1 (×1.5)
+ Fast-dLLM	0.940	0.952	0.948	0.898	0.935	312.5 (×3.2)
+ Block Diffusion	0.976	0.986	0.972	0.932	0.967	322.1 (×3.3)
+ Fast-dVLA (ours)	0.970	0.988	0.976	0.928	0.966	402.7 (×4.1)

CALVIN ABCD→D：与 SOTA 跨范式对比（RQ2，Table 3）

方法	1/5	2/5	3/5	4/5	5/5	Avg. Len.
LLaDA-VLA	0.956	0.878	0.795	0.739	0.645	4.01
UP-VLA	0.962	0.921	0.879	0.842	0.812	4.42
MDT	0.986	0.958	0.916	0.862	0.801	4.52
UD-VLA + Fast-dVLA (ours)	0.984	0.952	0.922	0.870	0.812	4.54

SimplerEnv WidowX 机器人任务（RQ2，Table 4）

方法	Spoon on Towel	Carrot on Plate	Stack Green Block	Eggplant in Basket	Avg. Success	Speed (tok/s)
GR00T-N1	62.5	45.8	16.7	20.8	36.5	—
DDVLA	70.8	29.2	62.5	20.8	37.5	152.8
Dream-VLA	45.8	45.8	25.0	100.0	51.0	100.1
+ Block Diffusion	83.3	66.7	45.8	95.8	55.2	226.4
+ Fast-dVLA (ours)	83.3	54.1	62.5	54.1	59.3 (+16.2%↑)	366.4

真实世界实验（RQ3）

Real-world experiment results — **图 7 真实机器人实验结果。**在双臂 AgileX 平台上评估三项任务：(a) 传送带拣取（Conveyor Picking）——以每分钟成功抓取次数衡量，Fast-dVLA 达到 **13.0 次/分钟**，约为 Dream-VLA（7.0）的 2 倍，π₀-FAST（5.0）的 2.6 倍；(b) 蔬菜归类（Vegetables Stowing）——成功率 57.5%，接近 Dream-VLA 的 45.0%，同时将完成时间从 ~15s 压缩至 ~14s；(c) 蔬菜取用（Vegetables Retrieving）——成功率 60.0%，维持在 Dream-VLA 水平，执行频率稳定在 **30 Hz**，而 π₀-FAST 约 16 Hz、Dream-VLA 约 15 Hz。

消融实验（RQ4/RQ5）

训练效率方面，非对称蒸馏（ℒ_AD）从微调权重出发，仅需 2,000 步即可收敛，约为从微调权重继续用 ℒ_BD 训练所需的 1/5，是从头训练步数的约 1/10（Figure 8）。

块大小方面，将块大小设为动作维度的倍数（本文为 7）比随机块大小在 LIBERO-Long 上平均成功率提高约 1.4 个百分点（74.7% vs 73.3%），且加速比更高（4.01× vs 3.95×）（Table 5）。

置信度阈值 τ_conf 方面，设为 0.5 时达到速度与成功率最优平衡，在 UD-VLA 上实现 2.8× 加速而成功率仅下降 ~2%（Figure 9）。

04 Limitations

Note: 论文无独立的 Limitations 章节。以下局限性均为从论文设计与实验描述中推断（inferred from the design），非作者明确陈述。

块大小需手工对齐动作维度

Fast-dVLA 的最优块大小需为动作维度的整数倍（UD-VLA 设为 32 的倍数，DD-VLA/Dream-VLA 设为 7）。不同模型或任务需重新搜索超参，自动化块粒度选择尚未解决（inferred）。

蒸馏依赖已微调的双向 dVLA

Fast-dVLA 的非对称蒸馏以双向 dVLA 的微调权重为教师起点；对于全新任务或无法获得已微调模型的场景，需额外先做标准微调，增加了准备成本（inferred）。

真实世界任务范围有限

真实机器人实验仅覆盖 3 类桌面操控任务（传送带拣取、蔬菜归类、蔬菜取用），所用 AgileX 双臂平台与工业环境存在差距；长时序、接触丰富或高动态任务的实时性能尚未验证（inferred）。

SimplerEnv 部分任务成功率低于基线

在 SimplerEnv 的"Carrot on Plate"和"Eggplant in Basket"任务上，Fast-dVLA + Dream-VLA 的成功率（54.1% 和 54.1%）低于 Dream-VLA 原始值（45.8% 和 100.0%，其中"Eggplant"下降幅度较大），说明加速策略在特定任务上存在成功率代价（stated in Table 4）。