RSS 2026 · 机器人 · Robotics

RISE: Self-Improving Robot Policy with Compositional World Model

利用世界模型构建 RL 训练环境,实现机器人 policy 的无物理交互自我提升
Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li · 2026.02.11 (arXiv:2602.11075)

RISE 将世界模型重新定义为强化学习的训练环境:Compositional World Model 由两部分组成——动态模型(dynamics model)负责预测多视角未来观测,价值模型(value model)负责评估想象出的未来状态,两者组合输出 advantage 信号,驱动 policy 的持续自我提升,全程无需额外物理交互。

📅 2026-02-11 (v1) · 2026-04-28 (v2) 🏆 RSS 2026 🤖 双臂操作 · Bi-manual Manipulation 📄 arXiv:2602.11075 🌐 Project Page
world model reinforcement learning dynamics model value model advantage signal robot manipulation 想象力强化学习 VLA 双臂操作 自我提升

01 动机 Motivation

Vision-Language-Action(VLA)模型在接触密集型操作任务中表现脆弱,而在物理世界中直接跑 on-policy RL 受制于硬件成本、安全风险和环境重置的高昂代价。如何在无需大量真实物理交互的情况下,持续提升机器人 policy 的鲁棒性?

"While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset."
RISE teaser figure
Figure 1:RISE 框架概览。 (a) 传统物理世界 RL 因硬件成本高、交互缓慢、需手动重置而受限; (b) RISE 将学习环境转移到 Compositional World Model——动态模型预测多视角未来,价值模型评估想象状态,生成 advantage 信号驱动 policy 更新,无需额外物理交互。
+35%Dynamic Brick Sorting
绝对成功率提升
+45%Backpack Packing
绝对成功率提升
+35%Box Closing
绝对成功率提升
95%Box Closing
RISE 最高成功率
RISE task suite
Figure 2:三项真实世界评测任务。 左:桌面双臂操作平台全景;右:各任务操作细节。 Dynamic Brick Sorting——在移动传送带上精确拾取彩色砖块并放入目标区域, Backpack Packing——将多个物体装入背包, Box Closing——关闭具有柔性铰链的箱盖。三项任务均要求高动态性、精巧度与精度。

02 方法 Method

RISE 的核心是 Compositional World Model,由两个专用模块组成: Dynamics Model(基于 Genie Envisioner)预测候选动作的多视角未来观测; Value Model(从 π₀.₅ VLA 初始化)评估想象状态并输出 advantage。 两者联合驱动一个两阶段自我提升循环,全程无需物理 RL 环境。

Compositional World Model workflow
Figure 4:Compositional World Model 的训练与推理流程。 上:各模块的训练方式(动态模型预训练 + 微调;价值模型双目标训练); 下:推理时,动态模型生成多条想象轨迹,价值模型对每条轨迹打分, 计算得到 advantage,供 policy 进行 advantage-conditioned 训练。

Dynamics Model — 多视角未来预测

Genie Envisioner 为基础,接收多视角 RGB 历史帧(history window N=4) 与候选 action chunk(horizon H=50),预测未来多视角观测序列。 关键创新:Task-Centric Batching——训练时「在同一场景下优先追求动作多样性,而非场景多样性」, 显著提升动作可控性(EPE 从 1.05 降至 0.54)。 选用 Genie Envisioner 而非 Cosmos 的原因:合成 25 帧多视角观测仅需 <2 秒, 较 Cosmos 提速约 300×。

Value Model — 双目标评估

从预训练 π₀.₅ VLA 骨干初始化,采用双重训练目标:
Progress regression:将时间步映射到粗粒度任务进度(0→1),提供密集监督;
Temporal-Difference (TD) learning:区分成功与失败状态, 使用演示数据与失败 rollout 数据联合训练,使评估对关键失败时刻敏感。 Advantage(公式 2)定义为「每条想象轨迹中各未来观测价值与初始观测价值之差的平均累计改善」, 离散化为 10 个均匀 bins。

RISE self-improving loop
Figure 5:RISE 自我提升循环(两阶段)。 Stage 1 — Policy Warm-up:在离线数据上微调 π₀.₅,以 advantage 标签为条件进行训练; 专家演示数据赋予最优 advantage(值为 1),rollout 数据由学习到的价值模型标注 advantage。 Stage 2 — 自我提升循环:Rollout 阶段利用动态模型生成想象轨迹并由价值模型评分; Training 阶段以(状态, 动作, advantage)三元组更新 policy, 混合离线与在线数据(比例 0.6 离线最优)防止灾难性遗忘,约迭代 10k 步。

计算开销

03 实验 Experiments

在三项真实世界双臂操作任务上评测,报告成功率(%)与得分(满分 10), 与多个基线对比:π₀.₅ 直接部署、π₀.₅+PPO、π₀.₅+DSRL、π₀.₅+DAgger 及 RECAP。

主要结果(Table I)

方法 Dynamic Brick Sorting(成功率) Backpack Packing(成功率) Box Closing(成功率)
π₀.₅ (baseline)35%35%50%
π₀.₅ + PPO10%10%35%
π₀.₅ + DSRL10%10%10%
π₀.₅ + DAgger15%30%50%
RECAP (prior best)50%40%60%
RISE(本文) 85%(+35%) 85%(+45%) 95%(+35%)

得分(满分 10):Sorting 9.78 / Packing 9.50 / Closing 9.88(均为 RISE 最优)。 π₀.₅+PPO 表现出严重不稳定性,甚至低于直接部署基线。

Learning dynamics comparison
Figure 8:与 RL 替代方案的学习曲线对比。 RISE 与 RECAP 及 DSRL 相比,以更快的学习速度获得更高成功率; 竞争方法即使经过充分训练也无法达到 RISE 的水平。

消融实验

04 局限性 Limitations

说明:以下三点由作者在论文中明确陈述(stated by the authors)。
想象与现实的差距(Imagination-Reality Gap)

动态模型在罕见或欠代表性场景下「仍可能产生物理上不合理的转换(physically implausible transitions)」, 导致 policy 在真实部署时面临分布偏移风险。提高动态模型的真实性和覆盖度是未来的重要方向。

仍需一定量真实数据(Real-World Data Dependency)

「A non-trivial amount of real-world data remains essential to anchor the learning procedure」。 纯合成数据无法完全替代真实演示,收集成本依然存在, 大规模泛化部署仍需解决真实数据的可扩展性问题。

计算成本转移而非消除(Computational Bottleneck)

「RISE shifts the primary bottleneck from physical interaction to computation」。 动态模型预训练耗资 16×H100 约 7 天,微调 8×H100 约 3 天, 前期计算投入门槛较高,对资源有限的研究团队构成挑战。