机器人学习 · NeurIPS 2025 区域

π*₀.₆:能从经验中学习的视觉-语言-动作模型

π*₀.₆: A VLA That Learns From Experience
Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, Kevin Black, Chelsea Finn, Karol Hausman, Brian Ichter, Sergey Levine 等55位作者 · Physical Intelligence

本文提出 Recap(Reinforcement Learning with Experience and Corrections via Advantage-conditioned Policies), 一种让大型视觉-语言-动作(VLA)模型通过真实世界部署经验持续自我提升的强化学习框架。 在洗衣折叠、盒子组装和咖啡制作等家庭任务上,π*₀.₆ 实现了任务吞吐量翻倍、失败率减半的显著改进, 并完成了连续 13 小时无人监督自动制作浓缩咖啡的实际部署。

arXiv · 2025年11月 Physical Intelligence 机器人强化学习 📄 arXiv:2511.14759 📥 PDF
关键词VLA视觉-语言-动作模型机器人强化学习advantage-conditioned policyoffline RL机器人操作imitation learningflow matchingiterative fine-tuningdexterous manipulation

01 动机

机器人基础模型能否像人类一样"熟能生巧"——通过实际操作积累经验来持续提升技能? 现有 VLA 模型依赖大量人工示范进行模仿学习,但"示范数据永远无法覆盖真实环境的所有变化", 导致模型在部署时仍会遭遇大量失败。如何高效地利用机器人自主采集的轨迹数据(包括失败、成功和人工干预), 是迈向实用级机器人自主性的关键障碍。

"Practice makes perfect — humans need many attempts at complex tasks to achieve mastery… We need methods that can learn from autonomous experience, can correct actual deployment mistakes, and can improve speed beyond human teleoperation."
任务展示胶卷
任务展示:π*₀.₆ 在洗衣折叠(家庭场景)、咖啡馆制作浓缩咖啡、工厂流水线盒子组装等真实场景中的操作画面。 这些任务均在 Recap 自我改进迭代后得到显著提升。
>2×多样化洗衣与咖啡任务
吞吐量提升倍数
~50%失败率下降幅度
(最难任务)
13 小时咖啡制作连续无间断
实际部署记录
97%领口朝向校正子任务
严格标准下成功率
任务类别示意图
四类评估任务:洗衣折叠(T恤/短裤)、多样洗衣(最难物品)、制作浓缩咖啡、盒子组装。 每个任务均在多轮 Recap 迭代后测量成功率与每小时完成任务数(throughput)。

02 方法

Recap 将异构数据(人工示范、自主采集轨迹、专家干预)统一纳入 VLA 的训练管线, 通过优势条件化策略(advantage-conditioned policy)实现策略提升—— 无需显式策略梯度,只需对成功动作与失败动作分别建模即可从经验中学习。

模型架构图
π*₀.₆ 系统架构:以 Gemma 3 4B 语言骨干网络 + 860M 参数流匹配(flow-matching)动作专家为核心。 训练时在提示中附加二值化优势指示符 I_t(advantage indicator),使模型同时学习无条件行为 π(a|o,ℓ) 和优势条件化行为 π(a|I,o,ℓ),推断时用高优势分数引导策略输出。

Recap 三步循环流程

1

数据采集

机器人自主执行任务,标注员在必要时远程干预并提供示范修正。干预轨迹的优势指示符强制置为 True, 为模型提供"改进性动作"样例。每次迭代采集约 300–600 条自主轨迹和 280–380 条干预轨迹。

2

价值函数训练

训练一个分布式价值函数(distributional value function),以负剩余步数(归一化至 (-1,0))为目标。 优化目标:最小化 H(RBt(τ), pφ(V|ot,ℓ)), 即预测分布与真实返回的交叉熵。任务阈值 ε 设为预训练阶段价值预测的第 30 百分位数。

3

优势条件化策略提取

改进策略遵循:π̂(a|o,ℓ) ∝ πref(a|o,ℓ) · (πref(a|I,o,ℓ) / πref(a|o,ℓ))β。 训练目标(Eq.3)为最小化 E[−log πθ(at|ot,ℓ) − α log πθ(at|It,ot,ℓ)], 其中 It = 1(Aπref(ot,at,ℓ) > ε)。

预训练 + 任务特化两阶段设计

离线 RL 预训练 Pre-training

在数万小时的多机器人数据上用 Recap 进行大规模离线 RL 预训练, 使 π*₀.₆ 获得广泛的"何时需要改进"先验知识,为下游任务特化提供更好的初始化。

任务迭代精调 Task-specific

针对具体部署任务,循环执行上述三步流程(通常 2 轮迭代), 利用任务特定的成功/失败奖励信号逐步消除失败模式并提升操作速度。

稀疏奖励定义

任务奖励函数定义为:rt = 0(成功)、−Cfail(失败)、−1(每步惩罚)。 该稀疏奖励仅依赖人工标记的片段级成功/失败标签,无需设计复杂的密集奖励函数。

03 实验

在 4 个真实机器人任务上对比 π*₀.₆(有/无 Recap)及多个基线方法, 主要指标为每小时成功完成任务数(throughput)和成功率(success rate)。

主要量化结果

任务 基线 π₀.₆(无RL) π*₀.₆ + Recap 提升
洗衣折叠(T恤/短裤) ~5.5 任务/时, ~90% ~8.5 任务/时, ~95% 吞吐量 +55%
洗衣折叠(多样·最难物品) ~3 任务/时, ~50% ~7 任务/时, ~75% >2× 吞吐量
制作浓缩咖啡 ~2 任务/时, ~45% ~5 任务/时, ~90% >2× 吞吐量
盒子组装 ~5 任务/时, ~75% ~9.5 任务/时, ~90% >2× 吞吐量
多样洗衣实验结果
多样洗衣(最难物品):Recap 每轮迭代持续提升吞吐量, 最终超过 2× 的基线水平,而对比基线(π₀.₅、纯SFT、AWR、PPO)均未达到同等效果。
咖啡制作实验结果
制作浓缩咖啡:π*₀.₆+Recap 在成功率和吞吐量上均超过 2× 基线, 并完成了连续 13 小时无间断自动制作浓缩咖啡的实际部署测试。
T恤折叠实验结果
洗衣折叠(T恤/短裤):经过两轮 Recap 迭代后吞吐量提升约 50%, 成功率从 ~90% 提升至 ~95%。每轮采集约 300 条轨迹(4台机器人并行)。
盒子组装实验结果
盒子组装:两轮迭代后吞吐量提升约 2×,在工厂部署场景下各子任务 (取件 90%、组装 95%、贴标 85%、放置 85%)均达到高成功率。

基线方法对比

方法 类型 表现
π₀.₅ 上一代通用模型,无RL 最低基线
π₀.₆(SL baseline) 监督学习,无优势条件化 中等
Offline RL + SFT 仅使用示范精调 略高于SL
AWR(优势加权回归) 替代RL算法 低于Recap
PPO(策略梯度) 在线RL 显著低于Recap
π*₀.₆ + Recap(本文) 离线优势条件化RL 最优

消融实验与迭代改进

消融实验验证了三个关键设计选择的必要性:

领口朝向校正专项任务(collar-orientation):经过 2 轮 Recap 迭代(共采集 1,200 条轨迹), 在严格标准下成功率达到 97%,在家庭环境中折叠新款洗衣连续运行 超过 2 小时无需人工干预。

04 局限性

说明:以下局限性均为论文作者在 Limitations 章节中明确陈述(stated), 非推断(inferred)。原文引用如下。
依赖人工标注与人工干预

"Our system is not fully autonomous: it relies on human labeling and effort for reward feedback, interventions, and episode resets." ——系统并非完全自主,每轮迭代需要标注员提供片段级成功/失败标签,并在机器人卡死时进行重置或干预, 限制了大规模自动化部署的可行性。

探索策略较为朴素

"Our system is relatively naïve in how it approaches exploration." ——Recap 的探索依赖策略自身的随机性和人工干预来访问新状态,缺乏主动探索(active exploration) 机制,对于需要大幅偏离当前策略才能改进的任务可能效率较低。

批量离线 RL,非完全在线学习

"Recap performs iterated 'offline' updates rather than running a fully online RL loop." ——每次策略更新需要先收集一批数据再离线更新,而非实时在线强化学习, 导致样本效率低于理论最优的在线方法,且难以快速响应分布偏移。

规模化与推广性尚待验证

推断(inferred):目前评估任务数量有限(4个),且均在 Physical Intelligence 内部场景测试, 对更广泛的任务类别(如动态环境、多物体复杂操作)的泛化能力尚未系统验证。 此外,预训练阶段需要"数万小时"多机器人数据,数据获取成本对外部研究者构成较大门槛。