机器人 · Robotics · arXiv 2024

GRAPE: Generalizing Robot Policy via Preference Alignment

通过偏好对齐,让 VLA 模型同时从成功与失败轨迹中学习,实现多目标泛化
Zijian Zhang*, Kaiyuan Zheng*, Zhaorun Chen*, Joel Jang, Yi Li, Siwei Han, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao  ·  UNC-Chapel Hill, UW, UChicago

现有的 Vision-Language-Action(VLA)模型依赖行为克隆(behavior cloning),仅从专家成功示范中学习,导致对未见任务的泛化能力严重不足。GRAPE 提出轨迹级偏好优化(TPO)框架,利用大型视觉-语言模型自动分解任务阶段、生成时空约束,并从成功与失败轨迹对比中隐式建模奖励信号——无需精确定义奖励函数,即可将 VLA 对齐到完成率、安全性、效率等多种目标。

arXiv:2411.19309v2 · Feb 2025 Backbone: OpenVLA (7B) 评测: Simpler-Env · LIBERO · 真实机器人 📄 arXiv:2411.19309 PDF
VLA 偏好对齐 机器人操作 preference optimization trajectory-level reward spatiotemporal constraint OpenVLA 泛化能力

01 动机 · Motivation

VLA 模型经过 supervised fine-tuning(SFT)后,在控制环境下表现出色,但在新物体、新语义、新场景等 out-of-distribution(OOD)条件下泛化能力严重不足。根本原因在于:SFT 仅从成功示范中做行为克隆,无法建立对任务目标和潜在失败模式的整体理解;同时,数据集通常收集自不同专家,隐含不同价值取向(完成率、安全性、效率),简单模仿反而造成目标混乱。

"VLAs simply imitate actions from successful rollouts via behavior cloning while not developing a holistic understanding of the task goal or potential failure patterns."
GRAPE 与 SOTA VLA 模型在多种泛化任务上的雷达图对比
Figure 1. GRAPE 与当前最优 VLA 模型(Octo-SFT、OpenVLA-SFT、OpenVLA-DPO)在真实机器人和仿真环境中多种泛化维度上的成功率对比雷达图。GRAPE 在领域内(In-domain)及主体、物理、语义等泛化类别上全面领先。
+51.79%领域内任务成功率提升(vs. SFT baseline)
+58.20%未见操作任务成功率提升
−37.44%碰撞率下降(GRAPE-Safety)
−11.15%平均步长减少(GRAPE-Efficiency)

现有强化学习(RL)方案(如 PPO)理论上可增强泛化能力,但存在三大瓶颈:

GRAPE 通过轨迹级偏好对比绕过显式奖励建模,并引入自动化偏好生成流水线解决数据标注瓶颈。

02 方法 · Method

GRAPE 框架由两个核心模块构成:轨迹级偏好优化(TPO)定义从轨迹对比中学习的训练目标;引导代价偏好生成(GCPG)利用 VLM 自动为任意对齐目标合成偏好排序数据。二者结合,通过在线迭代采样不断提升策略质量。

GRAPE 方法概览图
Figure 2. GRAPE 整体框架。上半部分:VLM 将复杂操作任务分解为时序阶段,并为每个阶段提出关键空间点(keypoints);根据用户指定的对齐目标(安全、效率、任务完成),提示 VLM 生成阶段代价函数。下半部分:离线/在线采样基础 VLA 的轨迹,通过多阶段代价、自我评分和任务成功指示器综合排序,形成偏好对后用 TPO 损失更新策略,迭代直至收敛。

轨迹级偏好优化(Trajectory-wise Preference Optimization, TPO)

传统 DPO 在 step 级别做偏好优化,忽视了轨迹的全局语义。GRAPE 将 KL-正则化 RL 目标(Eq. 2)通过 Bradley-Terry 模型重参数化,推导出轨迹级 TPO 损失:

LTPO = −Ewl) log σ( β · [log πθw)/πrefw) − log πθl)/πrefl)] )

进一步利用 MDP 性质将轨迹对数似然分解为逐步 state-action 对之和(Eq. 6),使 VLA 直接以 step-wise rollout 执行轨迹级对齐。相比 step-wise DPO(OpenVLA-DPO),TPO 在全局轨迹维度对策略施加约束,避免低层噪声干扰,并同时从成功与失败轨迹中提取信号,显著提升泛化能力。

引导代价偏好生成(Guided-Cost Preference Generation, GCPG)

GCPG 自动构建偏好数据,消除人工标注需求:

支持的对齐目标

  • Task Completion:对齐到任务成功,最大化完成率。
  • Safety:最小化与物体的碰撞代价,学习避障路径。
  • Efficiency:最小化路径代价,减少平均操作步长。

通过调整 GCPG 代价函数的阈值参数即可切换对齐目标,无需重新设计训练流程。

实现细节

  • Backbone: OpenVLA(7B),LoRA fine-tuning,AdamW optimizer。
  • SFT 阶段:lr = 4×10⁻⁵,batch size = 16。
  • 偏好优化阶段:lr = 2×10⁻⁵,batch size = 16。
  • 阶段分解 VLM:GPT-4o;关键点检测:DINOv2。

03 实验 · Experiments

在两个仿真平台(Simpler-Env、LIBERO)和真实机器人环境(30 个任务,300 次实验)上与 Octo-SFT、OpenVLA-SFT、OpenVLA-DPO 进行系统比较。评测维度涵盖领域内任务及五类分布外泛化:视觉(visual)、主体(subject)、动作(action)、语义(semantic)和语言接地(language grounding)泛化。

仿真环境结果

仿真环境实验结果
Figure 3 & 4. 左:Simpler-Env 上 GRAPE 与基线的成功率对比,涵盖领域内及主体、物理、语义三类泛化。右:LIBERO 上四类任务(Spatial/Object/Goal/Long)的平均成功率。GRAPE 在 Simpler-Env 上分别超越 Octo-SFT 和 OpenVLA-SFT 131.72%46.10%,在 LIBERO 上超越 8.53%7.36%
环境 / 对比方法 Octo-SFT OpenVLA-SFT OpenVLA-DPO GRAPE(本文)
Simpler-Env 平均成功率 ↑ 15.22% 29.33% 38.67%
LIBERO 平均成功率 ↑ 73.9% 77.4% 83.1%
真实机器人总平均成功率 ↑ 5.7% 32.3% 39.3% 50.3%
真实机器人领域内成功率 ↑ 20.0% 45.0% 50.0% 67.5%

真实机器人泛化结果

真实机器人实验结果
Figure 5. 真实机器人环境下,GRAPE 与基线在领域内及五类分布外泛化(视觉/主体/动作/语义/语言接地)上的成功率对比(共 30 个任务,300 次实验)。GRAPE 总平均成功率 50.3%,较 OpenVLA-DPO(39.3%)、OpenVLA-SFT(32.3%)和 Octo-SFT(5.7%)均有显著提升。

多目标对齐分析(Table 2)

方法 Collision Rate ↓(真实) Step Length ↓(真实) Success Rate ↑(真实) Collision Rate ↓(仿真) Step Length ↓(仿真) Success Rate ↑(仿真)
OpenVLA-SFT 53.33 142.32 34.61 66.50 72.68 27.50
GRAPE-Safety 29.84 146.11 54.31 46.00 74.49 37.00
GRAPE-Efficiency 58.45 125.79 51.67 57.50 64.92 38.50
GRAPE-TC 38.60 131.66 58.46 59.50 70.24 42.50

注:GRAPE-Safety 将碰撞率降低 37.44%,GRAPE-Efficiency 将步长减少 11.15%,同时维持与 OpenVLA-SFT 相近的任务成功率——证明通过调整代价函数阈值即可灵活切换对齐目标。

消融实验与迭代优化分析

消融实验与迭代优化结果
Figure 6 & Table 1. 左:GRAPE 在 Simpler-Env 上迭代偏好优化过程中各类泛化任务成功率的变化曲线(SFT → iter 1 → iter 2 → iter 3),领域内任务提升 17.5%,主体/物理/语义泛化分别提升 9.0%/15.0%/21.0%。右:奖励分量消融结果——去掉任意分量均导致性能下降,三者(R_self、R_ext、I_success)缺一不可;随机选择成功/失败对(Random w/ I_success)相比 GRAPE 全奖励排序性能显著更差。

消融结果表明:

04 局限性 · Limitations

Note: 原论文未包含专门的 "Limitations" 章节,以下各条均为从方法设计和实验条件中推断(inferred)的局限,并非作者明确陈述。
依赖 VLM 进行阶段分解与代价生成

GRAPE 的 GCPG 模块需要调用外部 VLM(如 GPT-4o)来自动生成阶段分解和代价函数。这引入了对强大商业 API 的依赖,增加了推理成本,且代价函数质量受限于 VLM 本身的推理能力和 prompt 设计,在极端任务场景下可能失效。

仅支持二进制偏好对(binary preference pair)

论文明确指出仅讨论"binary case where only one chosen/rejected trajectory is present",以控制训练成本。扩展到多轨迹排序(list-wise preference)可能进一步提升性能,但会显著增加计算开销。

迭代在线采样的计算代价较高

GRAPE 需要在每轮迭代中在线采样大量轨迹、分解阶段、计算代价并重新训练,整体训练成本高于直接 SFT。论文在 Implementation Details 中指出训练细节,但未提供具体的训练时间或 GPU 小时对比。

安全与效率目标存在权衡

Table 2 数据显示,GRAPE-Safety 在降低碰撞率的同时步长略有增加(146.11 vs 142.32),GRAPE-Efficiency 减少步长但碰撞率略升(58.45 vs 53.33)。两种对齐目标之间存在一定的 trade-off,同时优化多个目标的方法尚未被探索。

评测局限于固定任务集合

真实机器人实验共 30 个任务、300 次实验,仿真实验在 Simpler-Env 和 LIBERO 两个标准 benchmark 上进行。这些任务集合相对固定,方法在更大规模、更开放世界的场景(如 Open X-Embodiment 全分布)中的表现尚不明确。