ReWiND：语言引导奖励无需新示范即可训练机器人策略

01 动机

机器人学习长期面临两难困境：要么需要为每个任务人工设计奖励函数，要么需要大量专家示范数据。现有语言条件奖励学习方法往往依赖真值状态信息或数千条示范，难以推广到真实场景。

"我们的框架仅需少量示范（例如每个任务五条），便能让机器人通过语言指令学习未见过的任务变体，无需额外收集新示范。" —— 论文核心主张

ReWiND 概览 — **图1：ReWiND 整体概览。**系统在少量语言标注示范上预训练，随后仅凭语言指令驱动的奖励函数，即可通过强化学习适应未见过的新任务——无需为新任务收集任何新示范数据。

2.4×奖励泛化提升（相对基线）

79%MetaWorld 仿真成功率（IQM）

68%真实机器人微调后成功率

5×真实世界相对预训练策略提升

现有方法的不足

标准强化学习（RL）：每个新任务都需要人工设计奖励函数，工程成本高昂。
模仿学习（Imitation Learning）：依赖大量专家示范，采集成本高，且难以泛化到未见变体。
现有语言条件奖励方法（LIV、RoboCLIP、VLC、GVL 等）：通常需要真值状态信息，或对数千条示范的需求，在真实机器人部署中不切实际。

02 方法

ReWiND 包含三个阶段：（1）从少量示范中学习语言条件奖励函数；（2）用该奖励函数对语言条件策略进行离线 RL 预训练；（3）对未见新任务使用在线 RL 进行微调，全程无需额外示范。

三阶段流程图 — **图2：ReWiND 三阶段流程。**（a）奖励模型在增广的示范数据集上训练，学习预测帧级别任务进度；（b）学到的奖励函数为示范数据打标签，用于 IQL 离线预训练语言条件策略；（c）对于语言指定的未见新任务，策略通过在线 RL 微调，奖励信号完全来自已学习的奖励函数。

阶段一：进度预测式奖励学习

奖励函数 R_ψ(o_1:t, z) 以观测序列和语言指令为输入，预测每帧对应的任务进度（范围 0→1）。对于匹配的视频-指令对，模型学习预测单调递增的进度值；对于不匹配对，则预测为零进度。这种"stable, fixed targets"设计将进度直接转化为归一化奖励，避免了奖励尺度不稳定的问题。

架构关键设计：

图像编码器：冻结的 DINOv2；语言编码器：冻结的 all-MiniLM-L12-v2
跨模态时序聚合 Transformer（Cross-modal Sequential Aggregator）
仅首帧位置编码：避免模型过拟合于帧位置而非语义内容

阶段二：视频回绕增强（Video Rewind Augmentation）

这是 ReWiND 最核心的创新之一。在线 RL 期间，策略不可避免地会产生各种失败轨迹，但示范数据仅含成功序列，导致奖励函数无法正确评估失败行为。

视频回绕示意 — **图3：视频回绕增强（Video Rewind Augmentation）示意。**对成功示范视频，在随机中间时刻将后续帧"倒放"若干步，合成出"尝试抓取后掉落"等失败轨迹。论文原文举例："If we rewind the video for a few frames right when the robot grabs the cup, it now looks like one in which the robot attempted to grasp the cup and then dropped it." 这使奖励模型学会在失败发生时降低奖励分值。

阶段三：在线微调 + 输入鲁棒性

为提升语言泛化能力，ReWiND 还整合了来自 Open-X Embodiment 数据集的 356k 条轨迹（含 59k 个唯一任务字符串），并通过 LLM 为每个任务生成 5–10 条多样化语言描述。训练目标结合了进度损失和回绕损失，使奖励函数对指令措辞的变化保持鲁棒。

训练数据组成

D_demos：目标环境 15–20 个任务，每任务约 5 条示范
D_open-x：精选 Open-X 子集，包含以物体/方向为中心的指令
增强数据：视频回绕合成的失败轨迹

策略训练细节

离线预训练：IQL（Implicit Q-Learning）
在线微调：在线 RL，奖励来自冻结的 R_ψ
仿真：MetaWorld 8 个未见任务，100k 环境步
真实机器人：Koch 双臂机器人，50k 步（约 1 小时）

03 实验

实验分三部分：（Q1）奖励函数质量评估；（Q2）策略学习性能；（Q3）消融研究。基线包括 LIV、RoboCLIP、VLC、GVL 等主流方法。

Q1：奖励函数质量

指标	VLC（基线）	LIV-FT（基线）	ReWiND（本文）
任务进度 Pearson 相关系数 r	0.64	—	0.83
任务进度 Spearman 相关系数 ρ	0.62	—	0.79
策略轨迹排序（相对 LIV-FT 提升）	—	基线	+74%（奖励顺序）/ +58%（奖励差距）
语言鲁棒性 Spearman ρ（方差）	0.60 (高方差)	—	0.74 (方差 0.04)，提升 23%

Q2：策略学习性能

MetaWorld 策略性能对比 — **图5：MetaWorld 仿真最终成功率对比（100k 步，3 个随机种子，IQM）。**ReWiND 以 79% 的 IQM 成功率领先所有基线：VLC 40%、LIV-FT 45%、Sparse Reward 接近 0%。ReWiND 相对 VLC 提升约 97.5%。

真实机器人实验结果 — **图6：真实机器人（Koch 双臂）在线 RL 结果。**五个任务覆盖分布内任务、视觉泛化、空间/动作序列和语言泛化。预训练策略平均成功率仅 12%，ReWiND 微调后达到 68%（提升 5.6×）；VLC 微调仅得 10%（ReWiND 对 VLC 提升 6.7×）。

场景	预训练策略	VLC 微调	ReWiND 微调
MetaWorld 仿真（IQM 成功率）	—	40%	79%
真实机器人平均成功率	12%	10%	68%

真实机器人任务详情

分布内任务："separate the blue and orange cups"（分离蓝橙杯子）
难分布内任务："fold the blue towel"（折叠蓝色毛巾）
视觉泛化："open the red trash bin"（打开红色垃圾桶）
空间/动作序列："put the orange cup on the red plate"（将橙杯放到红盘上）
语言泛化："put the fruit-colored object in the box"（将水果色物体放入盒子）

Q3：消融研究

**图7：BRIDGE 数据集毛巾展开任务的 ReWiND 奖励预测示例。**当机器人未能成功抓取时，奖励停滞不前；成功抓取并展开后，奖励稳步上升，体现了奖励函数对接触密集任务的准确建模能力。

消融组件	影响
移除 Video Rewind 增强	策略成功率下降 33%；轨迹排序 ρ 从 0.82 降至 0.56
移除 LLM 指令生成	语言鲁棒性相关系数从 0.74 降至 0.52
移除 Open-X 子集	未见任务对齐从 0.79 降至 0.64；鲁棒性降至 0.55
移除目标环境数据	训练对齐从 1.00 降至 0.55；轨迹排序失效
改用完整位置编码	策略成功率下降 21%（过拟合帧位置）

04 局限性

说明：论文在正文及附录中明确讨论了以下局限性，均为作者明确陈述（stated）；仅最后一项为从设计推断（inferred）。

依赖合理的零样本初始策略能力

ReWiND 的在线微调效果取决于预训练策略在新任务上是否具备一定的初始探索能力。论文指出："If the ReWiND reward function could be combined with stronger policies that are easy to learn online in the loop, performance could improve significantly." 当前架构相较于现代 Vision-Language-Action 模型仍较为简单。

视频进度标签无法直接利用真实失败轨迹

进度预测目标依赖成功示范的视频标注，无法直接整合带有明确进度标签的失败轨迹。视频回绕增强是一种有效的近似，但合成失败与真实失败之间仍存在分布差异。

冻结编码器可能对特定任务欠拟合

为防止少量示范导致过拟合，ReWiND 使用冻结的预训练视觉（DINOv2）和语言（all-MiniLM-L12-v2）编码器。但若编码器缺乏对应领域的先验知识，可能出现欠拟合。论文举例：双臂海绵擦洗任务因缺乏双臂操作数据且存在摄像头遮挡，表现较差。

在线 RL 需要人工重置与成功检测

当前系统要求人工操作员进行环境重置，并在在线 RL 期间监督成功检测，限制了完全自主部署。论文认可这一局限性，并指出"recent reset-free RL works demonstrate promising solutions"作为未来方向。

（推断）扩散策略集成尚不成熟

初步的 Diffusion Policy 实验（Diffusion Steering RL, DSRL）显示，ReWiND 可将扩散策略成功率从 0% 提升到 20%，但在潜空间中进行指令条件化仍具挑战性，该方向有待进一步探索。