Training-Time Action Conditioning for Efficient Real-Time Chunking

01 动机

大规模 VLA（Vision-Language-Action）模型的推理延迟可达数十至数百毫秒，而机器人需要在实时约束下连续执行动作。 RTC（Real-Time Chunking）通过异步预测 action chunk 并在推理时用 inpainting 保证连续性来缓解这一问题，但其 inpainting 本身引入了额外的计算开销，反而加剧了延迟。

"Unlike chatbots or search engines, embodied agents must operate in real time. The feedback loop between an agent's actions and its environment necessitates reactivity — like a human athlete, an agent cannot simply 'stop and think' while the outside world changes."

两个重叠 action chunk 示意图 — **Figure 1**：两个重叠 action chunk 的示意图。时刻 t 到 t+d 之间的 d 个动作来自上一个 chunk，称为 *action prefix*（红色）；从 t+d 开始到 chunk 末尾的动作为 *action postfix*（需要新生成）。Inference-time RTC 利用所有 H−s 个重叠动作（红+黄）做 guidance；training-time RTC 只使用前 d 个动作（红色）作为条件。

108msTraining-time RTC 端到端推理延迟（d≈5，H100 远程推理）

135msInference-time RTC 推理延迟（d≈7）

50Hz机器人控制频率，支持最大 200ms 延迟

几行代码实现所需的额外修改量（无架构改动）

02 方法

Training-time RTC 的核心思想：在训练时随机采样延迟 d，将 ground-truth 的 prefix 动作作为已知条件（flow matching timestep τ=1.0，无噪声），只对 postfix 动作做去噪学习（p(A_t+d:H | o_t, A_t:t+d)）。训练时就学会了在任意延迟下根据已执行动作预测后续动作，部署时只需一次标准 forward pass，无需任何 inpainting 计算。

条件化架构示意图 — **Figure 2**：Conditioning 架构示意（以 π₀.₆ action expert 中的 diffusion transformer 为例）。Prefix 动作 token 始终输入 ground-truth、无噪声的动作值，其 flow matching timestep τ 固定为 1.0；postfix 动作 token 则使用正常的 τ 进行去噪。不同 token 之间 τ 不同，向模型传达了当前的推理延迟信息。

三处最小改动（minimal changes）

每个 token 独立的 flow matching timestep：对 adaLN-zero conditioning 稍作修改，允许不同 action token 使用不同的 τ，无额外参数。
Prefix 动作输入无噪声 ground-truth：将 prefix 对应 token 的 τ 设为 1.0，输入原始动作值而非加噪版本。
只对 postfix 计算 loss：训练时 mask 掉 prefix token 的 loss，只监督后缀动作的生成。

训练细节

基于 π₀.₆ VLA base model 进行 fine-tuning，共 8,000 gradient steps，batch size 512。
延迟 d 在训练中均匀采样于 0 到 10 之间，支持 50Hz 机器人上最大 200ms 的推理延迟。
从第 24 个 epoch 的 checkpoint 继续训练 8 个额外 epoch（仿真实验设置）。

03 实验

实验分两部分：仿真环境使用 dynamic Kinetix benchmark；真实环境使用 π₀.₆ VLA，在 box building（组装纸箱）和 espresso making（咖啡制作）两个精细操作任务上评估。对比基线为同步推理（synchronous）和 inference-time RTC。

仿真实验结果（Dynamic Kinetix Benchmark）

4 层 MLP-Mixer 架构，预测长度 H=8，测试延迟 0–4，每个数据点对应 2048 次 rollout，误差区间为 95% Wilson score interval。结果显示：training-time RTC 在推理延迟 ≥ 2 时表现优于 inference-time RTC，且差距随延迟增大而显著扩大；延迟为 0–1 时因训练监督减少而略低于 inference-time RTC。

仿真结果：推理延迟 vs. solve rate — **Figure 3**：仿真实验结果——推理延迟 vs. solve rate（固定执行长度 s=max(d,1)）。Training-time RTC 在延迟 ≥ 2 时超越 inference-time RTC，且随延迟增大差距持续扩大。每个数据点代表 2048 次试验，阴影为 95% Wilson score interval。

真实世界实验

使用 π₀.₆ base model，在远程 H100 服务器上以 5 个去噪步完成推理。Training-time RTC 平均端到端延迟 108ms（d≈5），inference-time RTC 平均延迟 135ms（d≈7）。

Box building task — **Figure 4(a)**：Box building 任务——将纸板折叠组装成完整纸箱，要求精确操作。

Espresso making task — **Figure 4(b)**：Espresso making 任务——包含研磨、填压、萃取、倒杯四个子步骤，任务链较长。

真实世界结果：success rate 和 duration — **Figure 5**：真实世界结果——两项任务的 success rate 和 duration。Training-time RTC 与 inference-time RTC 表现相当，两者均明显快于同步推理基线（synchronous baseline 在 chunk 之间有明显停顿）。Success rate 误差棒为 68% Wilson score interval，duration 误差棒为 ±1 SEM。

方法	Box Building 成功率	Espresso Making 成功率	推理延迟	额外推理开销
Synchronous Baseline	见 Figure 5	见 Figure 5	—	无
Inference-time RTC	见 Figure 5	见 Figure 5	135ms（d≈7）	有（inpainting）
Training-time RTC（本文）	见 Figure 5（与 RTC 相当）	见 Figure 5（与 RTC 相当）	108ms（d≈5）	无

注：论文图表（Figure 5）以柱状图形式呈现具体成功率和时长，原文未在正文以数字明确列出精确百分比。实验结论为 "training-time RTC maintains both task performance and speed parity with inference-time RTC while being computationally cheaper"。

关键结论

Training-time RTC 与 inference-time RTC 在两个真实任务上性能持平，同时减少了推理延迟（108ms vs. 135ms）。
两种 RTC 变体均明显优于同步推理基线（后者在 chunk 之间存在明显停顿）。
仿真结果表明：推理延迟越大，training-time RTC 相对 inference-time RTC 的优势越显著（延迟 ≥ 2 时 training-time RTC 更优）。

04 局限性

Note: 以下局限性均为论文作者在 Discussion 节中明确陈述（stated）。

灵活性不及 inference-time RTC（Flexibility）

如原文所述："training-time RTC is fundamentally less flexible than inference-time RTC; it only supports conditioning on a 'hard' action prefix corresponding to the inference delay, whereas inference-time RTC can 'softly' incorporate additional actions beyond the prefix." 即 training-time RTC 只能处理固定 d 步的 hard prefix，无法像 inference-time RTC 那样对 prefix 之外的重叠动作进行软性加权引导。

需要预先估计推理延迟分布（Delay Distribution Estimation）

Training-time RTC 需要在训练时选择合适的延迟分布（本文为 Uniform[0, 10]），该分布必须与实际部署时的推理延迟匹配。若实际延迟超出训练分布范围，性能可能下降。

不支持 prefix 之外重叠动作的软掩码（Soft Masking）

Inference-time RTC 可以利用来自前一个 chunk 的所有 H−s 个重叠动作（不只是前 d 个）进行 inpainting，而 training-time RTC 仅使用前 d 个 action 作为 hard prefix，丢弃了额外的重叠信息。