RL Token: 用 VLA 引导小型 Actor-Critic 实现高效在线强化学习

01 动机

VLA 模型（如 π₀、OpenVLA 等）在多样化操作任务上展现出强大的泛化能力，但面对需要毫米级精度的关键阶段（如螺钉安装、以太网插头插拔），其成功率往往不尽如人意。强化学习（RL）理论上可以弥补这一差距，但真机 RL 面临严峻挑战：

"every episode takes time, every failure consumes effort and wear, and meaningful adaptation often has to happen within a few hours of practice."

现有方案的两难困境：

直接微调整个 VLA：参数量巨大，样本效率极低，难以在少量真机数据上收敛。
从头训练小型 actor-critic（如 HIL-SERL）：丢弃了 VLA 预训练的感知与策略知识，探索空间大。
残差/蒸馏方案（如 PLD、DSRL）：作用于单步动作或扩散噪声空间，未能充分利用 VLA 的完整表征。

核心问题：如何在保留 VLA 预训练知识的同时，让轻量级 RL 在极少量真机数据上高效工作？

4个实验任务的关键阶段 — **图：实验中的 4 个真机操作任务。** 每个任务都包含一个需要高精度的关键阶段（critical phase）：（上）用螺丝刀安装 M3 螺钉；（中）穿扎带；（下）插入以太网线和电源充电器。 VLA 在这些精密阶段成功率有限，RLT 通过在线 RL 显著提升了速度与一致性。

3×关键阶段最大速度提升倍数

+45%螺钉任务成功率提升（20%→65%）

≤5h每任务真机 RL 训练数据量

4真实机器人操作任务

02 方法

RLT（RL Token）分两个阶段工作：首先将 VLA 最终层的 token 嵌入压缩成一个紧凑的"RL token" （通过 encoder-decoder transformer 的信息瓶颈），然后在这个 RL token 上训练一个轻量 actor-critic，在 VLA 冻结的情况下用在线 RL 精细化动作。

RL Token 提取架构 — **图 2：RL token 提取的架构细节。** RLT 在预训练 VLA 之上添加一个 encoder-decoder transformer。 Encoder 接收 VLA 最终层的所有 token 嵌入，并引入一个可学习的特殊 token（e_rl）； Decoder 从 RL token 自回归地重建原始 VLA 嵌入，形成信息瓶颈，迫使 RL token 保留足够的任务相关信息。

阶段一：RL Token 适配（Adaptation Stage）

在特定任务的遥操作演示数据上，用重建损失训练 encoder-decoder（可选同时 SFT 微调 VLA 本身）。重建目标确保："the representation for the RL token must retain enough information to enable the decoder to reconstruct the inputs。" 此阶段使用任务演示数据（每任务 1–10 小时的遥操作数据）。

阶段二：在线 RL（Online RL Stage）

冻结 VLA 与 RL token encoder，在 RL token 加本体感知状态（proprioceptive state）上训练轻量 actor 和 critic：

Reference action conditioning：Actor 以 VLA 采样的动作块（action chunk）为参考输入，学习"偏移量"而非从头生成动作，大幅缩小探索空间。
Reference action dropout：训练时随机将参考动作块替换为零向量，防止 actor 退化为单纯复制 VLA。
BC regularization：策略目标为最小化 −Q_ψ(x,a) + β‖a − ã‖²，其中 ã 为 VLA 参考动作块，β 控制锚定强度，防止在线 RL 走向奇怪的局部最优。
Chunked actions（C=10）：以 50 Hz 控制频率下 10 步为一个动作块，有效缩短时序差分（TD）学习的 horizon，使稀疏奖励下的 RL 更容易收敛。
高 update-to-data ratio（5:1）：每收集 1 步新数据就做 5 次梯度更新，在低数据在线场景下至关重要。

数据来源为 off-policy 混合：VLA rollout、RL 探索轨迹、以及人工干预纠正数据。这种分工使得"VLA 提供广泛的感知理解与动作建议，轻量 actor-critic 在任务最难的部分做在线适配"。

03 实验

在 4 个真实机器人精密操作任务上评测，使用关键阶段吞吐量 （throughput：每 10 分钟完成的成功次数）和成功率作为核心指标。每任务关键阶段评测 50 episodes，RL 训练数据量约 15 分钟至 5 小时。

各任务吞吐量提升结果 — **图 4：RLT 在各任务关键阶段的吞吐量提升。** RLT 在速度与一致性两方面均显著超越基础 VLA 策略，在最难的关键阶段实现最高约 3× 的速度提升。

关键阶段成功率对比

任务	Base VLA	RLT（本文）	变化
Screw Installation（螺钉安装）	20%	65%	+45%
Ethernet Insertion（以太网插入）	高（维持）	维持 + 速度 ≈3×	速度大幅提升
Charger Insertion（充电器插入）	高（维持）	维持 + 速度 ≈3×	速度大幅提升

注：论文中成功率以图表形式呈现；Screw 任务明确报告 20%→65%；其余任务以 Ethernet 任务为代表详细比较基线。

全任务（full-task）成功率提升

任务	Base VLA	RLT	提升
Screw Installation	基线	+40%	成功率大幅提升
Zip Tie Fastening	基线	+60%	成功率大幅提升

与基线方法对比（Ethernet 任务，图 6）

方法	关键设计	表现
HIL-SERL	ResNet encoder，单步动作	效果差，无法有效学习
PLD（Probe-Learn-Distill）	冻结 VLA 上的残差单步动作	效果差，单步动作不适合
DSRL	扩散 VLA 潜在噪声空间 RL	成功率接近 RLT，但速度提升明显更少
DAgger	干预数据微调 VLA	受限于人类演示速度
RLT（本文）	RL token + chunked actor-critic	成功率与速度均最优

消融实验（Ethernet 任务）

消融实验学习曲线 — **图 7：训练过程中各消融变体的吞吐量曲线。** 每个组件的去除都会导致性能下降，证明方法各部分缺一不可。

消融变体	影响
w/o RL Token（改用 ResNet-10 encoder）	吞吐量降低约 50%
w/o Chunks（单步动作 C=1）	无法可靠超越 VLA 基线
w/o BC Regularizer（β=0）	单项去除中影响最大
w/o Pass-Through（不输入参考动作）	学习更慢，训练过程失败更多，最终可部分恢复

涌现行为（Emergent Behavior）

RLT 在 Ethernet 任务上学到了演示数据中不存在的策略：基础 VLA 表现出"探测行为"（反复接近-退出-重调整），而 RLT 学会了流畅插入并主动施加压力、利用顺从性—— 约 50% 的 RLT 关键阶段 episodes 速度快于最快的人类遥操作示范。

04 局限性

说明：以下限制均为论文作者明确陈述（stated）。

需要持续人工干预（Human-in-the-loop）

论文明确指出："RLT...does require additional human intervention during training to provide reward signals, intervention corrections, and switching between RL (for the critical phase) and the base policy (for the other phases)。" 奖励信号、干预纠正、阶段切换均需人工参与，无法做到完全自主。

依赖任务阶段人工分割

需要人工识别"关键阶段"的起止点，并为该阶段提供 episode 级别的二值成功/失败标签。论文将"开发全自主 RL 改进流程"列为未来工作方向。

仍需任务特定的遥操作演示数据

适配阶段需要每任务 1–10 小时的遥操作演示数据来训练 RL token 的 encoder-decoder，限制了其在无演示数据场景下的适用性。

仅在精密关键阶段上 RL 微调

当前实验仅对任务中的"关键阶段"做 RL 优化，而非端到端全任务 RL。在关键阶段之外（抓取、运输等），仍沿用基础 VLA 策略。这简化了问题但也限制了适用范围（inferred）。