机器人 · Robotics · ICRA 2025

TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

无需 Critic 网络的 VLA 在线强化学习微调框架
Zengjue Chen, Runliang Niu, He Kong, Qi Wang, Qianli Xing, Zipei Fan · 吉林大学人工智能学院

TGRPO 针对 VLA 模型依赖成功演示数据、无法从失败中自我学习的根本缺陷,提出了一种基于轨迹分组的在线 RL 微调框架:以 LLM 自动生成多阶段密集奖励取代稀疏二值反馈,再通过步骤级与轨迹级双层优势估计融合来降低策略梯度方差,在 LIBERO 四项基准上实现平均 80.7% 成功率,比 SFT 提升 4.2%。

LIBERO Benchmark OpenVLA + LoRA LLM: Claude 3.7 Sonnet 📄 arXiv:2506.08440 PDF
VLA Vision-Language-Action 强化学习微调 GRPO trajectory grouping reward shaping 机器人操作 LIBERO

01 动机

VLA 模型的 SFT 范式将机器人局限于"动作记忆",无法自主探索与自我修正。稀疏的二值奖励信号则让在线 RL 训练极为困难——这正是 TGRPO 要解决的两大核心矛盾。

"VLA models trained solely on human-provided successful demonstrations … lacks the ability to learn from failures, restricting autonomous exploration and self-correction capabilities. Additionally, reward signals in real-world robotic tasks are often highly sparse, frequently reduced to binary success/failure feedback."
TGRPO 动机图
图 1:左侧对比 SFT 的"动作记忆"与 TGRPO 的策略优化路径;右侧展示 TGRPO 在 LIBERO 四个子集的成功率,明显高于所有基线。注意 LIBERO-Long(长时序任务)相比 SFT 提升幅度最大(+8.1%)。
80.7%LIBERO 平均成功率(TGRPO)
+4.2%vs. SFT 基线
+8.1%LIBERO-Long vs. SFT
4并行环境数(N=4 最优)

背景:GRPO 在 VLA 上的挑战

Group Relative Policy Optimization (GRPO) 通过在组内归一化奖励来估计优势,无需额外的 Critic 网络,已在 LLM 数学推理中展现出色效率。然而直接迁移到机器人操作面临两大障碍:①机器人任务奖励极稀疏,组内方差过大导致梯度估计不稳定;②原版 GRPO 以单步 token 为粒度,与轨迹级别的机器人任务不匹配。TGRPO 通过多阶段密集奖励设计与双层分组策略解决这两点。

02 方法

TGRPO 在相同初始状态下采样多条轨迹,以 LLM 分解任务并生成多阶段密集奖励,再同时在步骤级和轨迹级两个粒度上估计优势并加权融合,最终以 PPO 风格的 clipped surrogate loss 更新策略——全程无需 value network。

TGRPO 框架总览
图 2:TGRPO 整体流程。① 在 N 个并行环境中采样轨迹组;② LLM(Claude 3.7 Sonnet)将任务分解为 K 个子阶段并为每阶段定义奖励函数;③ 对同一时间步的步骤奖励做组内归一化(步骤级优势 Ai,t),同时对轨迹累计奖励做归一化(轨迹级优势 Ai);④ 融合双层优势后以 KL 约束的 clipped loss 更新 OpenVLA(LoRA)策略。

多阶段密集奖励(LLM 生成)

针对稀疏奖励问题,作者借助 LLM 将每个任务分解为 K 个子阶段,并为每阶段定义基于物体位姿与末端执行器位姿的奖励函数:

Rt = f₁(Pobject(t), Pkpose) + f₂(Pkpose, st)

其中 f₁ 根据任务相关物体与目标位姿的距离给分,f₂ 根据末端执行器与参考位姿的距离(来自成功演示数据)给出密集引导信号。这一设计将二值成功/失败信号转变为连续、分阶段的稠密反馈,大幅降低了 RL 训练难度。

LLM 任务分解示例
图 3:以长时序任务"put alphabet soup and tomato sauce in basket"为例,LLM 将其分解为多个子阶段(抓取汤罐、移动到篮子、放入、重复另一物体等),并为每步分配对应的奖励计算方式,展示了密集奖励生成的实际效果。

双层优势估计与融合

TGRPO 同时在两个粒度上计算优势:

两者线性融合为最终优势:Advi,t = α₁Ai,t + α₂Ai,消融实验确定最优权重 α₁=0.3,α₂=0.7。最终使用 PPO 风格的 clipped surrogate loss 并加 KL 正则项约束策略漂移,无需额外 Critic 网络。

超参数消融热力图
图 4:α₁-α₂ 权重组合对 LIBERO-Goal 成功率的影响热力图。α₁=0.3、α₂=0.7 达到最优 81.0%;右侧展示分组大小 N 对训练稳定性与效率的权衡,N=4 为最佳平衡点。

03 实验

在 LIBERO 基准的四个子集(各含 10 项任务)上评估,每任务 50 个测试 episode;基座模型为 OpenVLA(LoRA 微调,AdamW lr=1×10⁻⁵),4 个并行环境;基线包括 Octo、SFT、DPO、GRAPE。

主要结果

测试集 Octo SFT DPO GRAPE TGRPO(本文)
LIBERO-Spatial 77.6% 84.7% 88.5% 90.4%
LIBERO-Object 84.9% 88.4% 92.1% 92.2%
LIBERO-Goal 82.9% 79.2% 83.1% 81.0%
LIBERO-Long 50.3% 51.1% 57.2% 59.2%
平均 73.9% 75.9% 80.2% 80.7%

TGRPO 在 Spatial、Object、Long 三个子集上超越所有基线;在 Goal 子集上(81.0%)略低于 GRAPE(83.1%),低于 Octo(82.9%)。作者注:LIBERO-Goal 任务的多样目标条件使 LLM 生成奖励时有一定噪声。

LIBERO 各子集成功率对比
图 5:LIBERO 四个子集上各方法成功率的柱状图对比。TGRPO(蓝色)在 Spatial 和 Long 子集上优势明显,Long 任务相比 SFT 提升 8.1 个百分点,体现了 RL 在长时序任务上的优越性。

消融实验(LIBERO-Object)

方法Task0Task1Task2Task3Task4Task5Task6Task7Task8Task9平均
SFT8676907492929892929288.4%
w/o Trajectory-level8856866092829292926080.2%
w/o Step-level7878985894829696929686.8%
TGRPO(完整)8882987698949898949692.2%

去除轨迹级优势(→80.2%)和去除步骤级优势(→86.8%)均显著低于完整方法(92.2%),证明两个层级的优势估计缺一不可。Task1 和 Task3 在去除轨迹级优势后下降尤为明显,说明宏观轨迹质量信号对部分任务至关重要。

04 局限性

说明:作者在论文中仅简短提及未来方向,未设专门的 Limitations 章节。以下第一条为作者明确陈述,第二、三条为从方法设计中归纳(inferred)。
仅在仿真环境中验证(作者明确陈述)

所有实验在 LIBERO 模拟器中进行,作者明确指出未来工作方向为"extend TGRPO to real-world and multi-task settings"。真实机器人的传感器噪声、接触动力学和状态估计误差对密集奖励计算的鲁棒性尚未评估。

奖励函数依赖 LLM 且需要状态特权信息(inferred)

多阶段奖励的生成需要 LLM(Claude 3.7 Sonnet)对任务进行分解,并在运行时访问仿真器提供的精确物体位姿(Pobject(t))和末端执行器状态。在无法获取完整状态观测的真实场景中,该奖励设计需要额外的感知模块支持,增加了部署复杂度。

单任务训练、未验证多任务泛化(inferred)

每个实验仅对单一任务进行 RL 微调("single task per experiment"),尚未验证 TGRPO 在多任务联合训练设置下的性能与稳定性。LIBERO-Goal 子集上略逊于 GRAPE 和 Octo 也暗示目标条件多样性下的泛化仍有改进空间。