FLARE: Robot Learning with Implicit World Modeling

01 动机

机器人操作需要对长程因果关系的推理能力——预见当前动作对未来状态的影响。现有显式世界模型方法为此生成高保真像素级视觉预测，却带来巨大的计算开销，且面临内在矛盾：视觉生成强调空间细节与纹理合成，而动作建模更需紧凑、抽象、任务相关的表示。

"We show that a surprisingly simple and flexible recipe, fully compatible with existing VLA architectures, can surpass prior VLA policy learning methods by a substantial margin."

FLARE 的核心洞察：不必生成像素，只需在策略网络内部预测未来观测的隐式嵌入，便可赋予策略世界模型的感知能力，同时保持架构精简。这也解锁了对无动作标注人类视频的联合训练，大幅提升对新物体的泛化能力。

FLARE vs. 传统扩散策略对比示意图 — **图 1：**FLARE（右）与传统扩散策略（左）的对比。传统方法仅以当前观测预测动作；FLARE 在 diffusion transformer 中额外引入 future tokens，并通过潜在对齐损失将其与未来帧嵌入对齐，从而使策略在推断动作时隐式地"预见"未来。这一设计还支持从仅有视频（无动作标注）的人类示范数据中学习。

70.1%RoboCasa 24 任务成功率（FLARE）

55.0%GR-1 Tabletop 24 任务成功率

95.1%真实 GR-1 机器人成功率（100 次示范）

80%仅 10 个机器人示范 + 人类视频后的新物体成功率

02 方法

FLARE 在标准 diffusion transformer（DiT）策略之上增加两个组件：① 附加于序列末尾的可学习 future tokens；② 将 DiT 中间层特征对齐至冻结的未来观测嵌入的 alignment loss。推理时 future tokens 被直接丢弃，无任何额外开销。

FLARE 架构图 — **图 2：FLARE 架构。**输入序列由当前观测嵌入 ϕ_t（通过 Action-Aware Embedding Model 压缩为 32 个 query token）、扩散噪声动作 A_t^τ 以及 M 个可学习 future tokens q_t 组成。序列经过 self-attention 层后，future tokens 的中间层激活被 MLP 投影，通过余弦相似度损失与未来帧 t+H 的冻结嵌入 ϕ_{t+H} 对齐。action head 输出 flow-matching 损失所需的去噪预测。训练时同时优化 ℒ_flow 与 ℒ_align；推理时 future tokens 丢弃。

潜在世界建模（Latent World Modeling）

在 DiT 的第 L 层，抽取与 future tokens 对应的中间激活，经 MLP 投影后与未来观测 ϕ_{t+H} 的冻结嵌入做余弦对齐：

ℒ_align(θ) = −𝔼_τ [ cos( f_θ(ϕ_t, A_t^τ, q_t), g(ϕ_{t+H}) ) ]

其中 g(·) 为冻结的 Action-Aware Embedding Model，f_θ(·) 为可训练 MLP。预测紧凑的语义嵌入而非像素，既降低了计算量，又捕获了任务相关的高阶信息。超参数 λ 控制 ℒ_align 与标准 flow-matching 损失 ℒ_flow 的权重，实验中 λ = 0.2 最优。

Action-Aware Embedding Model

通用视觉语言编码器（如 SigLIP2）缺乏对操作任务的敏感性，直接用于对齐效果不佳。FLARE 专门预训练了一个 Q-former 式编码器：

输入：多相机图像 + 语言指令的融合序列；
输出：M = 32 个可学习 query token，压缩为固定长度表示，自然支持多相机输入；
训练数据：来自多种机器人本体约 2,000 小时的跨具身数据集，以动作预测目标端到端训练，确保嵌入对动作信息高度敏感。

消融实验表明，将通用 SigLIP2 替换为 Action-Aware Embedding 使 GR-1 基准成功率从 49.6–50.9% 提升至 55.0%。

无动作标注视频的联合训练

由于 ℒ_align 仅依赖当前与未来帧的嵌入对，不需要动作标注，FLARE 可以直接在人类示范视频（egocentric video）上计算世界模型损失，同时在机器人演示上计算完整的 flow-matching 损失。这为使用大规模无标注人类视频提供了天然途径。

03 实验

实验分四部分：① 多任务基准对比；② 数据高效的 post-training；③ 人类视频辅助的新物体泛化；④ 消融研究。基准平台为 RoboCasa（仿真，24 任务，Franka 机械臂）与 GR-1 Tabletop（仿真，24 任务，人形机器人）以及真实 GR-1 机器人。

多任务基准（Table 1）

方法	RoboCasa 24 任务	GR-1 Tabletop 24 任务
Diffusion Policy	51.7%	40.9%
UWM	60.8%	29.5%
GR00T N1 (Scratch)	60.6%	45.1%
Policy Only（本文 baseline）	61.9%	44.0%
FLARE（本文）	70.1%	55.0%

FLARE 在两个基准上均大幅超越所有对比方法：RoboCasa 较 Policy Only 提升 +8.2%，较 UWM 提升 +9.3%；GR-1 Tabletop 较 Policy Only 提升 +11.0%，较 UWM 提升 +25.5%。

数据高效 Post-training 与真实机器人

Post-training 结果图 — **图 5–6：**在 RoboCasa 仅 100 条轨迹的数据高效场景下，FLARE 较 Policy Only 提升约 **10%**。在真实 GR-1 机器人（每任务 100 次遥操作示范）上，FLARE 达到 **95.1%** 成功率，较 baseline 高约 **14%**。

人类视频辅助的新物体泛化

人类视频辅助实验结果 — **图 7：**在新物体泛化实验中，以 10 个真实机器人示范 + 150 段人类第一视角视频联合训练后，FLARE 在从未见过的物体上达到 **80%** 成功率；当机器人示范降至仅 1 个时，成功率仍有 **60%**。纯策略方法在相同设定下表现大幅落后，验证了世界模型损失对人类视频信号的有效利用。

消融研究

消融实验：DiT 层选择与损失权重 — **图 8–9：**左图展示不同 DiT 层 L 对性能的影响——中间层效果最佳，过浅或过深均会下降；右图展示 EMA 系数 ρ = 0.995 时性能最优。损失权重 λ = 0.2 为最佳，Action-Aware Embedding 对比通用 SigLIP2（49.6–50.9%）提升明显（55.0%）。

04 局限性

Note: 以下局限性均来自论文原文的 Limitations 部分（stated by the authors）；附带标注 inferred 的为设计层面合理推断。

任务范围局限于拾放操作

论文明确指出："we focus mainly on imitation learning with pick-and-place tasks on a real humanoid robot. Extending to more complex humanoid tasks that require more fine-grained dexterous manipulation … remains an important direction."细粒度灵巧操作（如工具使用、精密装配）尚未验证。

未集成强化学习

论文将"incorporating reinforcement learning into the training paradigm"列为重要未来方向。目前 FLARE 仅在模仿学习框架下验证，RL 是否能进一步放大世界模型带来的收益尚不清楚。

人类视频数据采集受限（inferred）

人类视频泛化实验依赖头戴式 GoPro 相机在受控环境中录制，视角与光照条件相对固定。论文提及"controlled settings using head-mounted GoPro cameras"。对真实野外场景的泛化能力尚未评估。

对少量专家示范的依赖（inferred）

实验中真实机器人每任务使用 100 次遥操作示范；即便是"data-efficient"设定也需要 100 条轨迹。在极少示范（1–5 次）场景下，性能会显著下降，系统对示范质量较为敏感。