机器人 · Robotics · arXiv 2025

FLARE: Robot Learning with Implicit World Modeling

隐式世界模型赋能机器人策略学习
Ruijie Zheng, Jing Wang, Scott Reed, Johan Bjorck, Yu Fang, Fengyuan Hu, Joel Jang 等 · NVIDIA / University of Maryland

FLARE 在扩散变换器策略内嵌入隐式潜在世界模型,通过余弦对齐损失将中间层特征与未来观测嵌入对齐,让机器人在生成动作时同步"预见"未来状态。无需像素级视觉生成,以极小的架构改动在多任务操作基准上最高超越现有方法 26%,并可利用无动作标注的人类示范视频提升泛化能力。

arXiv 2025-05 多任务机器人操作 人形机器人 GR-1 📄 arXiv:2505.15659
隐式世界模型 机器人操作 diffusion transformer VLA imitation learning 人形机器人 潜空间对齐 cross-embodiment

01 动机

机器人操作需要对长程因果关系的推理能力——预见当前动作对未来状态的影响。现有显式世界模型方法为此生成高保真像素级视觉预测,却带来巨大的计算开销,且面临内在矛盾:视觉生成强调空间细节与纹理合成,而动作建模更需紧凑、抽象、任务相关的表示。

"We show that a surprisingly simple and flexible recipe, fully compatible with existing VLA architectures, can surpass prior VLA policy learning methods by a substantial margin."

FLARE 的核心洞察:不必生成像素,只需在策略网络内部预测未来观测的隐式嵌入,便可赋予策略世界模型的感知能力,同时保持架构精简。这也解锁了对无动作标注人类视频的联合训练,大幅提升对新物体的泛化能力。

FLARE vs. 传统扩散策略对比示意图
图 1:FLARE(右)与传统扩散策略(左)的对比。传统方法仅以当前观测预测动作;FLARE 在 diffusion transformer 中额外引入 future tokens,并通过潜在对齐损失将其与未来帧嵌入对齐,从而使策略在推断动作时隐式地"预见"未来。这一设计还支持从仅有视频(无动作标注)的人类示范数据中学习。
70.1%RoboCasa 24 任务成功率(FLARE)
55.0%GR-1 Tabletop 24 任务成功率
95.1%真实 GR-1 机器人成功率(100 次示范)
80%仅 10 个机器人示范 + 人类视频后的新物体成功率

02 方法

FLARE 在标准 diffusion transformer(DiT)策略之上增加两个组件:① 附加于序列末尾的可学习 future tokens;② 将 DiT 中间层特征对齐至冻结的未来观测嵌入的 alignment loss。推理时 future tokens 被直接丢弃,无任何额外开销。

FLARE 架构图
图 2:FLARE 架构。输入序列由当前观测嵌入 ϕ_t(通过 Action-Aware Embedding Model 压缩为 32 个 query token)、扩散噪声动作 A_t^τ 以及 M 个可学习 future tokens q_t 组成。序列经过 self-attention 层后,future tokens 的中间层激活被 MLP 投影,通过余弦相似度损失与未来帧 t+H 的冻结嵌入 ϕ_{t+H} 对齐。action head 输出 flow-matching 损失所需的去噪预测。训练时同时优化 ℒ_flow 与 ℒ_align;推理时 future tokens 丢弃。

潜在世界建模(Latent World Modeling)

在 DiT 的第 L 层,抽取与 future tokens 对应的中间激活,经 MLP 投影后与未来观测 ϕ_{t+H} 的冻结嵌入做余弦对齐:

ℒ_align(θ) = −𝔼_τ [ cos( f_θ(ϕ_t, A_t^τ, q_t), g(ϕ_{t+H}) ) ]

其中 g(·) 为冻结的 Action-Aware Embedding Model,f_θ(·) 为可训练 MLP。预测紧凑的语义嵌入而非像素,既降低了计算量,又捕获了任务相关的高阶信息。超参数 λ 控制 ℒ_align 与标准 flow-matching 损失 ℒ_flow 的权重,实验中 λ = 0.2 最优。

Action-Aware Embedding Model

通用视觉语言编码器(如 SigLIP2)缺乏对操作任务的敏感性,直接用于对齐效果不佳。FLARE 专门预训练了一个 Q-former 式编码器:

消融实验表明,将通用 SigLIP2 替换为 Action-Aware Embedding 使 GR-1 基准成功率从 49.6–50.9% 提升至 55.0%

无动作标注视频的联合训练

由于 ℒ_align 仅依赖当前与未来帧的嵌入对,不需要动作标注,FLARE 可以直接在人类示范视频(egocentric video)上计算世界模型损失,同时在机器人演示上计算完整的 flow-matching 损失。这为使用大规模无标注人类视频提供了天然途径。

03 实验

实验分四部分:① 多任务基准对比;② 数据高效的 post-training;③ 人类视频辅助的新物体泛化;④ 消融研究。基准平台为 RoboCasa(仿真,24 任务,Franka 机械臂)与 GR-1 Tabletop(仿真,24 任务,人形机器人)以及真实 GR-1 机器人。

多任务基准(Table 1)

方法RoboCasa 24 任务GR-1 Tabletop 24 任务
Diffusion Policy51.7%40.9%
UWM60.8%29.5%
GR00T N1 (Scratch)60.6%45.1%
Policy Only(本文 baseline)61.9%44.0%
FLARE(本文)70.1%55.0%

FLARE 在两个基准上均大幅超越所有对比方法:RoboCasa 较 Policy Only 提升 +8.2%,较 UWM 提升 +9.3%;GR-1 Tabletop 较 Policy Only 提升 +11.0%,较 UWM 提升 +25.5%

数据高效 Post-training 与真实机器人

Post-training 结果图
图 5–6:在 RoboCasa 仅 100 条轨迹的数据高效场景下,FLARE 较 Policy Only 提升约 10%。在真实 GR-1 机器人(每任务 100 次遥操作示范)上,FLARE 达到 95.1% 成功率,较 baseline 高约 14%

人类视频辅助的新物体泛化

人类视频辅助实验结果
图 7:在新物体泛化实验中,以 10 个真实机器人示范 + 150 段人类第一视角视频联合训练后,FLARE 在从未见过的物体上达到 80% 成功率;当机器人示范降至仅 1 个时,成功率仍有 60%。纯策略方法在相同设定下表现大幅落后,验证了世界模型损失对人类视频信号的有效利用。

消融研究

消融实验:DiT 层选择与损失权重
图 8–9:左图展示不同 DiT 层 L 对性能的影响——中间层效果最佳,过浅或过深均会下降;右图展示 EMA 系数 ρ = 0.995 时性能最优。损失权重 λ = 0.2 为最佳,Action-Aware Embedding 对比通用 SigLIP2(49.6–50.9%)提升明显(55.0%)。

04 局限性

Note: 以下局限性均来自论文原文的 Limitations 部分(stated by the authors);附带标注 inferred 的为设计层面合理推断。
任务范围局限于拾放操作

论文明确指出:"we focus mainly on imitation learning with pick-and-place tasks on a real humanoid robot. Extending to more complex humanoid tasks that require more fine-grained dexterous manipulation … remains an important direction."细粒度灵巧操作(如工具使用、精密装配)尚未验证。

未集成强化学习

论文将"incorporating reinforcement learning into the training paradigm"列为重要未来方向。目前 FLARE 仅在模仿学习框架下验证,RL 是否能进一步放大世界模型带来的收益尚不清楚。

人类视频数据采集受限(inferred)

人类视频泛化实验依赖头戴式 GoPro 相机在受控环境中录制,视角与光照条件相对固定。论文提及"controlled settings using head-mounted GoPro cameras"。对真实野外场景的泛化能力尚未评估。

对少量专家示范的依赖(inferred)

实验中真实机器人每任务使用 100 次遥操作示范;即便是"data-efficient"设定也需要 100 条轨迹。在极少示范(1–5 次)场景下,性能会显著下降,系统对示范质量较为敏感。