机器人 · Robotics · VLA + Online RL · 2026

RL Token

Bootstrapping Online RL with Vision-Language-Action Models
Charles Xu, Jost Tobias Springenberg, Michael Equi, Ali Amin, Adnan Esmail, Sergey Levine, Liyiming Ke

将预训练 VLA 的"任务相关知识"压缩成一个紧凑的 RL token,再用这个 token 训练轻量 actor-critic—— 无需整体重训 VLA,仅需少量真机交互(15 分钟至 5 小时),即可大幅提升精密操作任务的成功率与速度。

arXiv 2026-04-24 4 个真机任务 chunk size C=10 · update-to-data ratio 5:1 📄 arXiv:2604.23073 PDF
VLA online reinforcement learning RL token actor-critic robot manipulation 样本效率 在线微调 imitation learning

01 动机

VLA 模型(如 π₀、OpenVLA 等)在多样化操作任务上展现出强大的泛化能力, 但面对需要毫米级精度的关键阶段(如螺钉安装、以太网插头插拔),其成功率往往不尽如人意。 强化学习(RL)理论上可以弥补这一差距,但真机 RL 面临严峻挑战:

"every episode takes time, every failure consumes effort and wear, and meaningful adaptation often has to happen within a few hours of practice."

现有方案的两难困境:

核心问题:如何在保留 VLA 预训练知识的同时,让轻量级 RL 在极少量真机数据上高效工作?

4个实验任务的关键阶段
图:实验中的 4 个真机操作任务。 每个任务都包含一个需要高精度的关键阶段(critical phase): (上)用螺丝刀安装 M3 螺钉;(中)穿扎带;(下)插入以太网线和电源充电器。 VLA 在这些精密阶段成功率有限,RLT 通过在线 RL 显著提升了速度与一致性。
关键阶段最大速度提升倍数
+45%螺钉任务成功率提升(20%→65%)
≤5h每任务真机 RL 训练数据量
4真实机器人操作任务

02 方法

RLT(RL Token)分两个阶段工作:首先将 VLA 最终层的 token 嵌入压缩成一个紧凑的"RL token" (通过 encoder-decoder transformer 的信息瓶颈),然后在这个 RL token 上训练一个轻量 actor-critic, 在 VLA 冻结的情况下用在线 RL 精细化动作。

RL Token 提取架构
图 2:RL token 提取的架构细节。 RLT 在预训练 VLA 之上添加一个 encoder-decoder transformer。 Encoder 接收 VLA 最终层的所有 token 嵌入,并引入一个可学习的特殊 token(erl); Decoder 从 RL token 自回归地重建原始 VLA 嵌入,形成信息瓶颈, 迫使 RL token 保留足够的任务相关信息。

阶段一:RL Token 适配(Adaptation Stage)

在特定任务的遥操作演示数据上,用重建损失训练 encoder-decoder(可选同时 SFT 微调 VLA 本身)。 重建目标确保:"the representation for the RL token must retain enough information to enable the decoder to reconstruct the inputs。" 此阶段使用任务演示数据(每任务 1–10 小时的遥操作数据)。

阶段二:在线 RL(Online RL Stage)

冻结 VLA 与 RL token encoder,在 RL token 加本体感知状态(proprioceptive state)上训练轻量 actor 和 critic:

数据来源为 off-policy 混合:VLA rollout、RL 探索轨迹、以及人工干预纠正数据。 这种分工使得"VLA 提供广泛的感知理解与动作建议,轻量 actor-critic 在任务最难的部分做在线适配"。

03 实验

在 4 个真实机器人精密操作任务上评测,使用关键阶段吞吐量 (throughput:每 10 分钟完成的成功次数)和成功率作为核心指标。 每任务关键阶段评测 50 episodes,RL 训练数据量约 15 分钟至 5 小时。

各任务吞吐量提升结果
图 4:RLT 在各任务关键阶段的吞吐量提升。 RLT 在速度与一致性两方面均显著超越基础 VLA 策略, 在最难的关键阶段实现最高约 3× 的速度提升。

关键阶段成功率对比

任务Base VLARLT(本文)变化
Screw Installation(螺钉安装)20%65%+45%
Ethernet Insertion(以太网插入)高(维持)维持 + 速度 ≈3×速度大幅提升
Charger Insertion(充电器插入)高(维持)维持 + 速度 ≈3×速度大幅提升

注:论文中成功率以图表形式呈现;Screw 任务明确报告 20%→65%; 其余任务以 Ethernet 任务为代表详细比较基线。

全任务(full-task)成功率提升

任务Base VLARLT提升
Screw Installation基线+40%成功率大幅提升
Zip Tie Fastening基线+60%成功率大幅提升

与基线方法对比(Ethernet 任务,图 6)

与基线方法对比
图 6:Ethernet 任务上 RLT 与各基线的对比。 HIL-SERL 和 PLD 使用单步动作(非 action chunk),效果差; DSRL 成功率接近 RLT 但速度提升显著更少; DAgger 受限于人类遥操作速度上限。
方法关键设计表现
HIL-SERLResNet encoder,单步动作效果差,无法有效学习
PLD(Probe-Learn-Distill)冻结 VLA 上的残差单步动作效果差,单步动作不适合
DSRL扩散 VLA 潜在噪声空间 RL成功率接近 RLT,但速度提升明显更少
DAgger干预数据微调 VLA受限于人类演示速度
RLT(本文)RL token + chunked actor-critic成功率与速度均最优

消融实验(Ethernet 任务)

消融实验学习曲线
图 7:训练过程中各消融变体的吞吐量曲线。 每个组件的去除都会导致性能下降,证明方法各部分缺一不可。
消融变体影响
w/o RL Token(改用 ResNet-10 encoder)吞吐量降低约 50%
w/o Chunks(单步动作 C=1)无法可靠超越 VLA 基线
w/o BC Regularizer(β=0)单项去除中影响最大
w/o Pass-Through(不输入参考动作)学习更慢,训练过程失败更多,最终可部分恢复

涌现行为(Emergent Behavior)

RLT 在 Ethernet 任务上学到了演示数据中不存在的策略: 基础 VLA 表现出"探测行为"(反复接近-退出-重调整), 而 RLT 学会了流畅插入并主动施加压力、利用顺从性—— 约 50% 的 RLT 关键阶段 episodes 速度快于最快的人类遥操作示范。

04 局限性

说明:以下限制均为论文作者明确陈述(stated)。
需要持续人工干预(Human-in-the-loop)

论文明确指出:"RLT...does require additional human intervention during training to provide reward signals, intervention corrections, and switching between RL (for the critical phase) and the base policy (for the other phases)。" 奖励信号、干预纠正、阶段切换均需人工参与,无法做到完全自主。

依赖任务阶段人工分割

需要人工识别"关键阶段"的起止点,并为该阶段提供 episode 级别的二值成功/失败标签。 论文将"开发全自主 RL 改进流程"列为未来工作方向。

仍需任务特定的遥操作演示数据

适配阶段需要每任务 1–10 小时的遥操作演示数据来训练 RL token 的 encoder-decoder, 限制了其在无演示数据场景下的适用性。

仅在精密关键阶段上 RL 微调

当前实验仅对任务中的"关键阶段"做 RL 优化,而非端到端全任务 RL。 在关键阶段之外(抓取、运输等),仍沿用基础 VLA 策略。 这简化了问题但也限制了适用范围(inferred)。