Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

01 动机

当前 VLA 动作解码范式面临两大根本性缺陷：自回归方法存在从左到右的累积误差与推理效率低下问题；而将独立扩散头附加于主干之外的方式，则割裂了信息通路，并损害了视觉语言预训练能力。

"This design not only complicates policy training but also degrades the pretrained vision-language capabilities, which represents a critical issue we address in this work."

Paradigm comparison — **Figure 1：范式对比。** 连续扩散（对动作块做扩散，附加在主干外）vs. 离散 token 解码器：AR（顺序生成）、BERT-style 并行解码，以及本文的 Discrete Diffusion（带 re-masking 的迭代精炼）。本文方法在统一主干内完成所有计算，避免信息割裂。

96.4%LIBERO 平均成功率（离散方法最优）

71.2%SimplerEnv-Fractal Visual Matching

54.2%SimplerEnv-Bridge 整体成功率

14.53 Hz实时控制频率（12 步去噪）

核心洞察在于：离散扩散与大语言模型的预训练目标（交叉熵）天然一致——训练时均以掩码 token 的预测为优化目标，因此不需要引入竞争性梯度信号，即可在同一主干内同时保留视觉语言推理能力和动作生成能力。

02 方法

Discrete Diffusion VLA 以 Prismatic-7B（Llama 2 主干）为基础，将机器人动作离散化为 token 序列，在统一 transformer 内以掩码扩散方式迭代精炼，并通过 Adaptive Decoding 和 Secondary Re-Masking 在推理阶段实现自适应去噪顺序与错误纠正。

Discrete Diffusion VLA architecture — **Figure 2：架构总览。** 多视角 RGB 图像经 SigLIP+DINOv2 ViT 编码，与自然语言指令一同输入主干；动作 token 使用双向 attention 与视觉/语言 token 充分融合。底部左侧为 Adaptive Decoding（按 cosine 调度逐轮保留高置信度 token），底部右侧为 Secondary Re-Masking（阈值检测重置不确定 token）。

动作离散化

末端执行器动作（平移 3 维、旋转 3 维、夹爪 1 维）通过分位数分箱离散化：每个连续维度划分为 256 个 bin（采用第 1—99 百分位以剔除异常值），夹爪单独作二值处理。每个时间步产生 D_act = 7 个 token，动作块长度 H 个时间步则产生 L = H × D_act 个 token。

训练目标

训练时随机采样掩码比例 γ_t，将 γL 个动作位置替换为 [MASK]，以交叉熵损失预测原始 token：

ℒ_CE(θ) = −∑_{i∈ℳ_γt} log p_θ(a_0,i | ã_t, c)

该目标与预训练 VLM 的优化目标完全一致，从而保留视觉语言能力，无需引入竞争性梯度信号。动作 token 的 attention 从因果改为双向，使每个动作位置均可 attend 到所有视觉、语言和动作 token。

Adaptive Decoding（自适应解码顺序）

推理时，从全掩码（γ₁ = 1）出发，迭代 T 步：

按最大置信度 s_{t,i} = max_k p_θ(k | ã_t, c) 对所有位置打分；
保留置信度最高的 (1−γ_{t+1})L 个位置，按温度采样（Gumbel 采样），其余重置为 [MASK]；
掩码比例以 cosine 调度单调递减，直至 γ_T = 0。

此策略实现"instance-wise ranking"——对当前情境更确定的动作维度（如夹爪开合）优先解码，不确定的维度保留到后续迭代。

Secondary Re-Masking（二次重掩码纠错）

为防止低置信度 token 被错误固化，引入绝对阈值检测：若已承诺位置的置信度 s_{t,i} < η_t^abs（单调递增阈值），则将该 token 重置为 [MASK] 重新预测，实现"多迭代一致性与鲁棒错误纠正"。

Adaptive Decoding Order Visualization — **Figure 6：Adaptive Decoding 顺序可视化。** 不同任务场景下，模型自动学习到不同的解码顺序——夹爪状态和高置信度动作维度优先解码，末端执行器精细轨迹维度在后续步骤中精炼。

03 实验

在 LIBERO、SimplerEnv-Fractal（Google Robot）、SimplerEnv-Bridge（WidowX）等模拟基准及 AgileX Cobot Magic 真实机器人上评估，与 OpenVLA、pi0、pi0-FAST、OpenVLA-OFT、GR00T-N1 等方法对比。

LIBERO 基准性能（Table 1）

方法	Spatial	Object	Goal	Long	平均
OpenVLA (AR, 离散)	84.6%	88.4%	79.2%	53.7%	76.5%
OpenVLA-OFT L1 (连续)	97.0%	99.6%	98.0%	93.6%	97.1%
pi0-FAST (离散 AR)	94.6%	97.8%	94.2%	87.8%	93.6%
Discrete Diffusion VLA（本文）	97.2%	99.4%	96.8%	92.2%	96.4%

在所有离散方法中性能最优；与最强连续方法 OpenVLA-OFT L1 (97.1%) 相差仅 0.7%。

OOD 鲁棒性（Tables 2–3，LIBERO-Goal 分布外测试）

方法	语言 OOD 性能下降	视觉 OOD 性能下降
OpenVLA-OFT L1 (连续)	3.2%↓	23.2%↓
并行离散解码 (BERT-style)	8.0%↓	22.6%↓
独立扩散头	2.4%↓	29.0%↓
Discrete Diffusion VLA（本文）	0.8%↓	20.4%↓

SimplerEnv 跨机器人平台（Tables 4–5）

方法	Fractal Visual Matching	Fractal 平均	Bridge 整体
pi0	58.8%	—	40.1%
pi0-FAST	61.9%	60.5%	48.3%
OpenVLA-OFT	63.0%	54.3%	—
GR00T-N1	—	—	49.5%
Discrete Diffusion VLA（本文）	71.2%	64.1%	54.2%

推理效率（Table 6）

Speed-Quality tradeoff — **Figure 4：Speed–Quality trade-off。** 左 y 轴：每秒生成动作块数（吞吐量）；右 y 轴：去噪步数消融（性能 vs. 步数）。12 步时延迟 68.8 ms（14.53 Hz），比 AR（136.2 ms）快约 2×，NFE 从 56 减至 12（减少 4.7×）。

方法	延迟（ms/chunk）	频率（Hz）	NFE
OpenVLA (AR, 56 步)	136.2	7.34	56
连续扩散（12 步）	~69	~14.5	12
Discrete Diffusion VLA（12 步）	68.8	14.53	12

消融研究（Tables 7–8）

在 LIBERO-Goal 上的消融：

解码顺序： 并行解码 95.6%，随机顺序 95.8%，confidence gap 96.6%，max confidence 96.8%（最优）；
采样温度： 硬采样 96.2%，固定温度 96.4%，线性衰减温度 96.8%（最优）；
Adaptive Decoding + Secondary Re-Masking 均有正向贡献，组合使用效果最佳。

真实机器人评估（Table 9，AgileX Cobot Magic）

在 AgileX Cobot Magic 双臂机器人上，每项任务各测试 15 次（控制频率 9.69 Hz）：

"Click the bell"：66.7% 成功率；
"Place cup on coaster"：40.0% 成功率。

04 局限性

Note: 以下局限性由作者在论文结论部分明确陈述（stated）；未注明者为基于设计推断（inferred）。

多步迭代解码速度慢于单步解码

作者明确指出："Our multi-step iterative decoding is slower than single-pass decoding by design。"12 步去噪虽比 AR 快 2×，但仍比单次前向传播（如并行 BERT-style 解码）开销更大，在对延迟极度敏感的应用场景中存在限制。

不兼容可变长度动作 tokenization

作者明确指出："variable-length action tokenization schemes are incompatible with discrete diffusion。"当前方法仅支持固定长度动作块（fixed-length chunk），无法直接应用于需要动态时间对齐的任务或变长指令跟踪场景。

依赖预定义 bin 数量与量化方案（inferred）

256-bin 分位数量化在有限数据下可能引入量化误差，且 bin 数量是超参数；对于精度要求极高的灵巧操作任务（如穿针引线），离散化精度是否足够尚未充分验证。

真实机器人评估规模有限（inferred）

真实机器人实验仅在 AgileX Cobot Magic 单一平台、2 项任务、各 15 次试验下进行，泛化到更多平台、更长任务链和非结构化环境的能力有待验证。