机器人 · Robotics  |  arXiv 2026.02

World Guidance

World Modeling in Condition Space for Action Generation
Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu

WoG 将未来观测映射到紧凑的"条件向量空间",注入 VLA 动作推理流水线,在无需完整视频重建的前提下为精细操控提供预测性引导,同时支持从无标注人类操作视频中高效学习。

arXiv 2026.02 SimplerEnv + Real Robot 两阶段训练 📄 arXiv:2602.22010
Vision-Language-Action world model condition space Q-Former 机器人操控 future prediction 扩散策略 人类操作视频

01 动机

现有 VLA 模型在"未来预测"与"精细动作生成"之间存在根本矛盾:World Action Models 显式预测未来图像/视频,信息冗余大,难以应用于现实操控;Latent Action Models 将未来压缩为稀疏隐变量,精度不足,无法支撑需要厘米级控制的任务。

"WoG maps future observations into compact conditions by injecting them into the action inference pipeline." ——论文摘要
WoG Teaser
图 1:WoG 核心思路对比。左侧:WoG 先将未来观测压缩为条件向量,注入动作推理流水线(Stage I);右侧:Stage II 阶段将条件预测与动作预测解耦,使模型在推理时仅需当前观测即可完成动作生成,无需访问真实未来帧。
78.0%Google Robot 平均成功率(WoG vs. 59.2% Moto)
63.5%WidowX 平均成功率(WoG vs. 62.5% ViPRA)
+42%引入 UMI 人类数据后 Pick & Place 提升
+33%引入 UMI 人类数据后 Fold Towel 提升

02 方法

WoG 采用两阶段训练范式:Stage I 以真实未来帧为监督信号训练条件提取器;Stage II 冻结条件空间定义,训练 VLM 同步预测条件与动作,推理时不再依赖未来帧。

WoG Architecture Overview
图 2:WoG 系统总览。Stage I(左):冻结的 DINOv2 与 Wan VAE 分别提取未来帧的语义特征与生成特征,可训练 Q-Former 将其查询压缩为 N=16 个条件 token(维度 D=32),DiT 动作头以当前观测 + 条件 token 生成动作。Stage II(右):冻结 Q-Former 与视觉编码器,VLM 同时预测条件向量(余弦相似度损失)与动作(flow-matching 损失),推理时不需要未来帧。

Stage I — World Guidance(条件提取与动作生成)

当前帧由 Prismatic VLM backbone 编码;未来帧由冻结的 DINOv2(语义特征)和 Wan VAE(生成特征)双路编码。可训练的 Q-Former 对两路特征进行跨注意力查询,得到 D=32 维条件向量。DiT 动作头以当前观测和条件向量为条件,通过 flow-matching 目标生成 16 步动作序列。训练损失:

LI = Eτ,A [‖vθ(Aτ, τ, z, Oc) − v*‖²₂]

默认超参数:预测视野 16 步动作、均匀采样 4 帧未来观测、N=16 个可学习查询。

Stage II — World Inference(条件预测与动作解耦)

Stage II 冻结 Q-Former 和视觉基础模型(定义稳定的目标条件空间),训练 VLM 同时输出:(1) 预测的条件向量(使用余弦相似度损失与 Q-Former 输出对齐);(2) 动作(flow-matching)。联合损失:

LII = Eτ,A [‖vθ(Aτ, τ, z) − v*‖²₂] + 1 − S[Oc, fq(O, l)]

推理时 VLM 直接从当前帧预测条件向量,无需真实未来帧。

Query Mechanism Detail
图 5:Q-Former 查询机制详解。左:Future Encoder 中 N=16 个可学习 queries 通过 cross-attention 提取 DINOv2+Wan VAE 双路特征,压缩为低维、动作相关的条件表示;右:Stage II 中 VLM 如何以条件为监督目标进行自预测,并与 DiT 动作头联合优化。

扩展至人类操作视频

WoG 提供两种策略将无标注人类视频纳入训练:(1) Stage I 使用少量带动作标注的人类子集,Stage II 用无标注大规模视频;(2) 直接在 Stage II 对无标注人类视频进行训练(无需动作标签)。两者均利用 Stage II 的余弦相似度损失对条件向量进行自监督,从而吸收人类操作知识。

03 实验

SimplerEnv 仿真环境(Google Robot + WidowX)和真实机器人平台(Close Microwave / Pick & Place / Fold Towel)上与 Moto、ViPRA、UniVLA、VPP、DeFI 等 baseline 进行对比。成功率(%)为主要指标。

SimplerEnv 仿真结果

模型 Google Robot 平均 WidowX 平均
DeFI51.2%
Moto59.2%
UniVLA45.6%
ViPRA62.5%
WoG(ours)78.0%63.5%

Google Robot 子任务:Pick Coke 89.0%(WoG)vs. 74.0%(Moto);Move Near 82.5% vs. 60.4%;Open/Close Drawer 62.5% vs. 43.1%。

真实机器人实验

Real-world experiment setup
图 3:真实机器人实验平台。左:机械臂与传感器配置;中:分布内(In-Distribution)三项任务执行过程;右:分布外(Out-of-Distribution)场景,包括背景变换、光照变化和新物体。
任务 UniVLA(ID) VPP(ID) WoG(ID)
Close Microwave80%90%100%
Pick and Place25%55%60%
Fold Towel20%45%60%

分布外(OOD)鲁棒性:Pick & Place 新物体场景 WoG 60→40%,VPP 55→15%;Fold Towel 光照变化 WoG 60→35%,VPP 45→20%。WoG 在多种 OOD 设置下均保持更高鲁棒性。

Ablations

Future Encoder 消融(Stage I):带 Future Encoder 的 WoG 在 Google Robot 达到 82.0%,移除后降至 75.1%;WidowX 86.4% vs. 75.0%。
训练阶段消融:完整两阶段 WoG(ID:100% / 60% / 60%)显著优于 WoG w/o cotrain(95% / 45% / 30%)和 Vanilla VLA(90% / 45% / 40%)。
编码器配置:WoG (dino-vae) 在轨迹规划任务(Google Robot)得 70.9%,WoG (dino-siglip) 在空间精度任务(WidowX)得 63.5%,各有侧重。

UMI human data results
图 4:引入 UMI 人类操作数据后的性能提升。相比仅使用机器人数据,Pick & Place 成功率从 60% 提升至 85%(+42%),Fold Towel 从 60% 提升至 80%(+33%)。

04 局限性

说明:以下局限性均由论文作者明确陈述于正文 Discussion 及 Conclusion 部分。
空间精度不足(Spatial Precision Challenges)

WoG 在需要精确相对位置估计的任务(如精细叠放、抽屉开关)上提升幅度"comparatively smaller",作者归因于"limited spatial resolution of the current backbone and inherent difficulty of modeling fine-grained geometry through current dynamic prediction alone"。

人类数据迁移的任务依赖性(Task-Dependent Human Data Transfer)

人类视频对 Pick & Place 任务有明显提升,但对形变物体操控(Fold Towel)效果不稳定,说明人机操作的相似性存在任务依赖性,不能简单假设人类数据在所有任务上均有益。

条件表示的表达能力上限(Expressive Power of Condition Representation)

作者在结论中指出,未来工作应聚焦于"more expressive and efficient condition representations to better handle scenarios with strong spatial or action constraints",暗示当前 D=32 维条件向量在强几何约束场景下存在信息瓶颈。