TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

01 动机

VLA 模型的 SFT 范式将机器人局限于"动作记忆"，无法自主探索与自我修正。稀疏的二值奖励信号则让在线 RL 训练极为困难——这正是 TGRPO 要解决的两大核心矛盾。

"VLA models trained solely on human-provided successful demonstrations … lacks the ability to learn from failures, restricting autonomous exploration and self-correction capabilities. Additionally, reward signals in real-world robotic tasks are often highly sparse, frequently reduced to binary success/failure feedback."

TGRPO 动机图 — 图 1：左侧对比 SFT 的"动作记忆"与 TGRPO 的策略优化路径；右侧展示 TGRPO 在 LIBERO 四个子集的成功率，明显高于所有基线。注意 LIBERO-Long（长时序任务）相比 SFT 提升幅度最大（+8.1%）。

80.7%LIBERO 平均成功率（TGRPO）

+4.2%vs. SFT 基线

+8.1%LIBERO-Long vs. SFT

4并行环境数（N=4 最优）

背景：GRPO 在 VLA 上的挑战

Group Relative Policy Optimization (GRPO) 通过在组内归一化奖励来估计优势，无需额外的 Critic 网络，已在 LLM 数学推理中展现出色效率。然而直接迁移到机器人操作面临两大障碍：①机器人任务奖励极稀疏，组内方差过大导致梯度估计不稳定；②原版 GRPO 以单步 token 为粒度，与轨迹级别的机器人任务不匹配。TGRPO 通过多阶段密集奖励设计与双层分组策略解决这两点。

02 方法

TGRPO 在相同初始状态下采样多条轨迹，以 LLM 分解任务并生成多阶段密集奖励，再同时在步骤级和轨迹级两个粒度上估计优势并加权融合，最终以 PPO 风格的 clipped surrogate loss 更新策略——全程无需 value network。

TGRPO 框架总览 — 图 2：TGRPO 整体流程。① 在 N 个并行环境中采样轨迹组；② LLM（Claude 3.7 Sonnet）将任务分解为 K 个子阶段并为每阶段定义奖励函数；③ 对同一时间步的步骤奖励做组内归一化（步骤级优势 A_i,t），同时对轨迹累计奖励做归一化（轨迹级优势 A_i）；④ 融合双层优势后以 KL 约束的 clipped loss 更新 OpenVLA（LoRA）策略。

多阶段密集奖励（LLM 生成）

针对稀疏奖励问题，作者借助 LLM 将每个任务分解为 K 个子阶段，并为每阶段定义基于物体位姿与末端执行器位姿的奖励函数：

R_t = f₁(P_object(t), P^k_pose) + f₂(P^k_pose, s_t)

其中 f₁ 根据任务相关物体与目标位姿的距离给分，f₂ 根据末端执行器与参考位姿的距离（来自成功演示数据）给出密集引导信号。这一设计将二值成功/失败信号转变为连续、分阶段的稠密反馈，大幅降低了 RL 训练难度。

LLM 任务分解示例 — 图 3：以长时序任务"put alphabet soup and tomato sauce in basket"为例，LLM 将其分解为多个子阶段（抓取汤罐、移动到篮子、放入、重复另一物体等），并为每步分配对应的奖励计算方式，展示了密集奖励生成的实际效果。

双层优势估计与融合

TGRPO 同时在两个粒度上计算优势：

步骤级优势（Step-level Advantage）：对组内同一时间步 t 的所有轨迹的步骤奖励 r_i,t 做均值/方差归一化，捕捉细粒度的时间步偏好。
轨迹级优势（Trajectory-level Advantage）：对轨迹累计奖励做组内归一化，捕捉宏观的整体轨迹质量偏好。

两者线性融合为最终优势：Adv_i,t = α₁A_i,t + α₂A_i，消融实验确定最优权重 α₁=0.3，α₂=0.7。最终使用 PPO 风格的 clipped surrogate loss 并加 KL 正则项约束策略漂移，无需额外 Critic 网络。

超参数消融热力图 — 图 4：α₁-α₂ 权重组合对 LIBERO-Goal 成功率的影响热力图。α₁=0.3、α₂=0.7 达到最优 81.0%；右侧展示分组大小 N 对训练稳定性与效率的权衡，N=4 为最佳平衡点。

03 实验

在 LIBERO 基准的四个子集（各含 10 项任务）上评估，每任务 50 个测试 episode；基座模型为 OpenVLA（LoRA 微调，AdamW lr=1×10⁻⁵），4 个并行环境；基线包括 Octo、SFT、DPO、GRAPE。

主要结果

测试集	Octo	SFT	DPO	GRAPE	TGRPO（本文）
LIBERO-Spatial	77.6%	84.7%	—	88.5%	90.4%
LIBERO-Object	84.9%	88.4%	—	92.1%	92.2%
LIBERO-Goal	82.9%	79.2%	—	83.1%	81.0%
LIBERO-Long	50.3%	51.1%	—	57.2%	59.2%
平均	73.9%	75.9%	—	80.2%	80.7%

TGRPO 在 Spatial、Object、Long 三个子集上超越所有基线；在 Goal 子集上（81.0%）略低于 GRAPE（83.1%），低于 Octo（82.9%）。作者注：LIBERO-Goal 任务的多样目标条件使 LLM 生成奖励时有一定噪声。

LIBERO 各子集成功率对比 — 图 5：LIBERO 四个子集上各方法成功率的柱状图对比。TGRPO（蓝色）在 Spatial 和 Long 子集上优势明显，Long 任务相比 SFT 提升 8.1 个百分点，体现了 RL 在长时序任务上的优越性。

消融实验（LIBERO-Object）

方法	Task0	Task1	Task2	Task3	Task4	Task5	Task6	Task7	Task8	Task9	平均
SFT	86	76	90	74	92	92	98	92	92	92	88.4%
w/o Trajectory-level	88	56	86	60	92	82	92	92	92	60	80.2%
w/o Step-level	78	78	98	58	94	82	96	96	92	96	86.8%
TGRPO（完整）	88	82	98	76	98	94	98	98	94	96	92.2%

去除轨迹级优势（→80.2%）和去除步骤级优势（→86.8%）均显著低于完整方法（92.2%），证明两个层级的优势估计缺一不可。Task1 和 Task3 在去除轨迹级优势后下降尤为明显，说明宏观轨迹质量信号对部分任务至关重要。

04 局限性

说明：作者在论文中仅简短提及未来方向，未设专门的 Limitations 章节。以下第一条为作者明确陈述，第二、三条为从方法设计中归纳（inferred）。

仅在仿真环境中验证（作者明确陈述）

所有实验在 LIBERO 模拟器中进行，作者明确指出未来工作方向为"extend TGRPO to real-world and multi-task settings"。真实机器人的传感器噪声、接触动力学和状态估计误差对密集奖励计算的鲁棒性尚未评估。

奖励函数依赖 LLM 且需要状态特权信息（inferred）

多阶段奖励的生成需要 LLM（Claude 3.7 Sonnet）对任务进行分解，并在运行时访问仿真器提供的精确物体位姿（P_object(t)）和末端执行器状态。在无法获取完整状态观测的真实场景中，该奖励设计需要额外的感知模块支持，增加了部署复杂度。

单任务训练、未验证多任务泛化（inferred）

每个实验仅对单一任务进行 RL 微调（"single task per experiment"），尚未验证 TGRPO 在多任务联合训练设置下的性能与稳定性。LIBERO-Goal 子集上略逊于 GRAPE 和 Octo 也暗示目标条件多样性下的泛化仍有改进空间。