Navigation World Models

01 动机

现有的视觉导航策略通常是"硬编码"的：一旦训练完成，就无法在推理阶段动态引入新的约束或反事实推理。如果导航过程中遇到障碍、需要绕道，或需要在完全陌生的场景中规划路径，这类策略几乎无从应对。更根本的问题是：如何让机器人在脑中"想象"轨迹，并以此筛选出最优方案？

"Unlike fixed policies, NWM can imagine trajectories considering constraints and counterfactuals, enabling dynamic constraint incorporation during the planning phase."

NWM overview — **图 1：NWM 总览。** （a）训练阶段：从机器人与人类的第一人称视频及关联导航动作中学习。（b）已知环境规划：通过 Cross-Entropy Method 模拟多条轨迹，选出代价最低的路径。（c）陌生环境想象：仅凭单张图像即可想象可行的导航路径。

1BCDiT 最大参数规模

4×CDiT vs. DiT FLOPs 减少（相同 LPIPS 下）

200.97NWM FVD（RECON），优于 DIAMOND 的 762.73

908hEgo4D 无标注视频辅助训练

02 方法

NWM 将导航建模为条件视频生成问题：给定历史帧序列和导航动作 a_i = (u, φ)（其中 u ∈ ℝ² 控制前后/左右平移，φ ∈ ℝ 控制偏航角），预测未来某时刻的视觉观测。训练时额外引入时间偏移量 k（timeshift），允许模型"跳跃"到任意未来时刻，并采用"每状态多目标"策略防止动作与时间的混淆（action-time entanglement）。

CDiT architecture — **图 2：Conditional Diffusion Transformer（CDiT）Block。** 目标帧 token 之间使用标准 self-attention；历史帧通过 cross-attention 作为条件输入，而非与目标帧混合计算 full self-attention。这使复杂度从标准 DiT 的 O(m²n²d) 降至 O(mn²d)，即关于历史帧数呈线性。动作嵌入、时间偏移嵌入和扩散时间步嵌入通过 AdaLN 联合融入。

Standalone 轨迹规划

使用 Cross-Entropy Method（CEM）在 NWM 内直接搜索动作序列。能量函数平衡两个目标：

对目标图像的感知相似度（perceptual similarity）
约束违反惩罚——约束以"无效动作集 𝒜_valid"和"不安全状态集 𝒮_safe"编码

不依赖任何外部策略，完全由 NWM 的内部想象驱动。

Trajectory Ranking（与外部策略结合）

从已有导航策略（如 NoMaD）采样多条候选轨迹（如 ×32 条），再用 NWM 对每条轨迹进行"视频模拟"，选出最接近目标、约束违反最少的轨迹执行。无需对外部策略重新训练，即可赋予其动态约束能力。

trajectory ranking with NWM and NoMaD — **图 7：NWM 对外部策略轨迹进行排序。** 给定起点观测和目标图像，NWM 从 NoMaD 采样的多条轨迹中，模拟每条路径的视觉演变，最终选出视觉上最接近目标的轨迹（黄色高亮）执行。

03 实验

实验使用多个机器人与人类第一人称视频数据集：SCAND（8.7h）、TartanDrive（5h）、RECON（40h）、 HuRoN（75h）构成已知环境训练集；GO Stanford（25h）作为未知环境评测集； Ego4D（908h 导航相关片段）提供无标注辅助数据。导航指标为 Absolute Trajectory Error（ATE）和 Relative Pose Error（RPE）；视觉质量指标为 LPIPS、DreamSim、PSNR、FVD、FID。

视觉导航性能（RECON，2 秒轨迹，Table 2）

方法	ATE (m) ↓	RPE ↓
GNM	1.87	0.73
NoMaD（外部策略基线）	1.93 ± 0.04	0.52 ± 0.00
NWM + NoMaD (×32 samples)	1.78 ± 0.03	0.48 ± 0.01
NWM standalone	1.13 ± 0.02	0.35 ± 0.01

视频生成质量（RECON，FVD，Table / Fig 6）

方法	FVD ↓	说明
DIAMOND	762.73	游戏世界模型基线
NWM（4 FPS，16s）	200.97	本文方法

FVD comparison and prediction accuracy over time — **图 4 & 5：预测精度随时间的变化（RECON 数据集）。** 左：NWM 与 DIAMOND 在 1 FPS 和 4 FPS 下的 LPIPS 对比，时间跨度达 16 秒。右：CDiT vs. 标准 DiT 的 LPIPS–FLOPs 权衡曲线（越左下越好）。 "4× fewer FLOPs compared to standard DiT while achieving better future prediction results."

约束规划（Table 3）

在"先向前再转弯"、"先向左/右再向前"等动作约束下规划，与无约束基线相比，终点位移偏差极小：前向优先约束 δu +0.36±0.01m、δφ +0.61±0.02；左右优先约束 δu -0.03±0.01m、δφ +0.20±0.01。

qualitative trajectory following — **图 3：已知环境轨迹跟随的定性对比。** NWM 与竞品在 RECON 数据集上沿真实轨迹的视频生成效果对比，NWM 生成细节更清晰、时序更一致。

泛化到未知环境（Table 4）

引入 Ego4D 无标注数据后，GO Stanford（未知环境）评测结果改善： LPIPS 从 0.658 → 0.652，DreamSim 从 0.478 → 0.464；同时 RECON（已知环境）性能保持在 ~0.30 不退化。

消融实验（Table 1）

在 RECON 上预测未来 4 秒（LPIPS 为主指标，越低越好）：

变体	LPIPS ↓
1 个目标/样本	0.312
4 个目标/样本（最终设置）	0.296
1 帧上下文	0.304
4 帧上下文	0.296
仅时间条件（无动作）	0.760
动作 + 时间联合条件	0.296

04 局限性

说明：以下局限性均为论文第 5 节（Section 5 Limitations）明确陈述的内容。

Mode Collapse（模式坍缩）

在分布外（out-of-distribution）场景中，模型的输出会逐渐向训练数据靠拢，出现"mode collapse"现象——生成图像的多样性和忠实度随时间下降。论文图 10 以陌生环境为例，展示了该失败案例。

动态目标建模困难（Temporal Dynamics）

NWM 难以准确模拟行人等动态物体的运动，当前版本对动态场景的预测质量有限。

动作空间局限于 3-DoF

当前动作表示为 a = (u, φ)，仅覆盖 3 个自由度（前后、左右平移 + 偏航角）。扩展到完整 6-DoF 以支持更复杂机器人平台被列为未来工作。