arXiv 2026 · cs.CV · cs.AI · cs.LG

Nano World Models

极简主义视频预测世界模型的最小化实现
Siqiao Huang · Partha Kaushik · Michael Chen · Hengkai Pan · Kaiwen Geng · Omar Chehab · Fernando Moreno-Pino · Max Simchowitz  |  Tsinghua University · Carnegie Mellon University · University of Bristol · University of Oxford · Amazon FAR

NanoWM 是一个以 diffusion forcing 为核心、模块化、极简的视频预测世界模型框架。它通过统一接口支持多种生成目标、模型规模、动作注入方式与潜在空间,并在控制、游戏和机器人等多领域上系统研究各设计选择对视频预测质量和长程自回归行为的影响。

2026 年 5 月 投稿 4 种模型规模:S(40M) · B(160M) · L(600M) · XL(830M) 6 种任务域 arXiv:2605.23993 GitHub 代码库 项目主页
world model diffusion forcing 视频预测 action conditioning long-horizon rollout latent space 扩散模型 世界模型 机器人操作 视频生成

01 动机

视频预测世界模型已成为学习预测模拟器的核心范式,支撑着生成、规划与决策制定。然而,尽管工业界的交互式视频生成取得了快速进展,更广泛的研究社区仍然缺乏紧凑、可复现、易于扩展的实现来研究现代世界模型背后的设计选择。

"The broader research community still lacks compact, reproducible, and easily extensible implementations for studying the design choices underlying modern world models."
NanoWM 框架总览
图 1:NanoWM 框架总览。NanoWM 是一个极简、模块化的未来视频预测与世界建模框架。它支持多样的环境与训练数据,将观测编码到潜在空间,并通过统一的 diffusion-forcing 接口预测未来观测。该接口可容纳不同的生成目标、模型规模和动作注入机制。同一模型接口支持实时仿真、测试时规划和 video-to-3D 应用,同时项目完全开源代码、模型权重和数据,以支持世界模型设计选择的可复现研究。

现有工业规模的世界模型对研究社区而言难以访问,研究者面临的核心挑战是:视频扩散、diffusion forcing、一致性蒸馏等技术已相当成熟,研究重心应从发明新技术转向理解设计决策。然而当前领域仍高度碎片化——不同论文使用不同数据集、训练方案和评估协议,缺乏"通用语言"。

NanoWM 的目标是打造一座"世界模型研究的巴别塔"("a Babel tower for world model research"),让数据集、目标函数、架构和任务能够说同一种语言,从而系统比较各种设计选项。

4模型规模
S/B/L/XL
5动作注入方式
FiLM / cross-attn 等
3预测目标
x / ε / v-prediction
6测试任务域
控制 / 游戏 / 机器人

02 方法

NanoWM 以 diffusion forcing 框架为核心,通过向轨迹中不同帧分配不同噪声指标,在同一模型接口下统一表达 teacher-forced 预测、masked future prediction 和自回归 rollout。

Diffusion Forcing 核心框架

系统对轨迹内每帧分配噪声指标(noise index):上下文帧保持干净,未来帧获得较高噪声指标。仅通过改变噪声调度,同一模型接口便可表达:

生成目标(Prediction Parameterization)

框架支持三种扩散/流匹配预测目标:

Transformer 骨干与模型规模

使用基于 Transformer 的骨干网络,对潜在视频 token 进行空间 patch 投影,再经过交错的空间-时间注意力块处理。命名规范为 "NanoWM-[规模]/[PatchSize]",例如 NanoWM-B/2 表示 Base 规模、2×2 的 patch 大小。四种规模:

动作注入方式(Action Injection)

框架实现了五种将动作信号注入模型的方式:

潜在观测空间(Latent Observation Spaces)

支持三种潜在空间编码:

长程 Rollout

通过在时间轴上应用滑动窗口注意力,模型可生成超越训练长度 4 倍的视频序列。长程生成时将已生成帧作为上下文帧,滑动窗口保证计算效率。

03 实验

实验在 6 个任务域上展开:Point Maze、Wall、Rope、Granular(来自 D4RL、DeepMind Control Suite)、PushT 和 RT-1(机器人操作数据)。评估指标:PSNR(像素保真度)、SSIM(结构相似性)、LPIPS(感知距离)、FID(分布相似性),以及决策任务的 Success Rate。验证集使用 256 个固定 seed=42 的片段。

发现一:预测目标对比(RT-1 Fractal 数据集,NanoWM-B/2)

预测目标噪声调度PSNR ↑SSIM ↑LPIPS ↓FID ↓
v-predictioncosine + ZTSNR23.070.7600.20742.27
x-predictioncosine + ZTSNR23.370.7830.18442.99
ε-predictionlinear21.890.7390.22548.86

v-prediction 在 FID 上最优;x-prediction 在重建指标(PSNR/SSIM/LPIPS)上最优。两者均大幅优于 ε-prediction。

发现二:模型规模消融(RT-1 Fractal)

架构参数量PSNR ↑SSIM ↑LPIPS ↓FID ↓
NanoWM-S/239.8M22.300.7390.23054.95
NanoWM-B/2158.6M23.070.7600.20742.27
NanoWM-L/2~460M23.620.7770.18636.31

规模扩大在所有指标上均带来一致提升。

发现三:动作注入方式对比

RT-1 数据集

方法PSNRFID ↓参数量
additive23.0742.27158.6M
adaLN23.1943.62158.6M
adaLN-fuse23.1043.03158.6M
FiLM23.2040.62172.8M
cross-attention20.8251.12187.0M

PushT 数据集

方法PSNRFID ↓
additive26.2023.89
adaLN-fuse26.1730.28
adaLN26.0926.32
cross-attention25.9528.64
FiLM25.8825.45

动作注入方式的优劣具有任务依赖性:FiLM 在 RT-1 上 FID 最优(40.62);additive 在 PushT 上以最少参数量取得最佳 PSNR 和 FID。Cross-attention 在 RT-1 上表现最差(FID 51.12),尽管参数量最多。

发现四:潜在空间对比(PushT 目标条件规划)

潜在空间骨干网络Latent Shape成功率 ↑
SD-VAENanoWM-B/2[4, 32, 32]25.0%
Web-DINONanoWM-B/1[1024, 16, 16]0.0%
V-JEPA 2.1NanoWM-B/1[1024, 16, 16]0.0%

诊断实验(真实动作 rollout 的 Latent MSE)揭示了失败根源:Web-DINO 和 V-JEPA 2.1 的动作嵌入 RMS 量级(分别为 0.00214 和 0.00129)远低于 SD-VAE(0.1119),表明语义潜在空间下模型几乎完全忽略动作信号,成为"动作无关"模型。这暗示扩散目标函数不足以强制语义表征中的动作利用。

多域定性 rollout 对比
图 2:多域定性 rollout 对比(Qualitative rollouts across domains)。展示 Point Maze、Wall、Rope、Granular、PushT 和 RT-1 的真实帧(GT)与 NanoWM 预测帧对比。统一的数据集与环境接口使网格导航、仿真控制和机器人视频预测在同一 rollout 格式下可比较。

发现五:跨域性能(统一训练方案)

数据集训练步数PSNR ↑SSIM ↑LPIPS ↓FID ↓
Point Maze30K36.740.9840.0199.66
Wall15K34.050.9940.0102.64
Rope15K31.630.9530.05635.20
Granular15K26.080.9170.07340.05
PushT100K33.190.9820.01613.63
RT-1300K24.360.7870.18035.08

统一训练方案在所有域上均有效。视觉/动态复杂度越高(如 Granular、RT-1),性能越低;简单仿真环境(Wall、Point Maze)表现最优。

发现六:长程 Rollout 误差累积

Error Accumulation across rollout horizon
图 6:Error Accumulation(误差累积曲线)。随着 rollout 步数增加,感知误差(LPIPS)持续累积。增加 DDIM 采样步数(50→250)在整个 rollout 范围内一致降低 LPIPS,表明更强的单帧去噪可缓解误差复合。模型在长程序列上能保持粗略的场景几何和摄像机运动,但细节的感知误差不断积累。
Weights & Biases 验证指标面板
图 3:Weights & Biases 验证指标面板。NanoWM 集成了 Tensorboard 和 W&B 日志,支持 PSNR、SSIM、LPIPS、FID 等指标的实时监控,辅助设计选择的系统比较。

消融实验总结

04 局限性

说明:以下局限性部分由作者明确陈述,部分为从设计推断(已注明来源)。
长程自回归 rollout 的误差累积(作者明确陈述)

论文明确指出"autoregressive generation inevitably accumulates perceptual errors over time"。随 rollout 步数增加,感知误差持续累积。增加采样步数可部分缓解,但无法根本解决。模型可保留粗略场景几何与摄像机运动,但精细细节随时间劣化。

语义潜在空间与扩散目标不兼容(作者明确陈述)

Web-DINO 和 V-JEPA 2.1 等语义潜在空间在 PushT 目标条件规划任务上成功率为 0%。诊断显示模型学习到几乎与动作无关的预测,动作嵌入量级(RMS 0.00214 / 0.00129)远低于 SD-VAE(0.1119)。论文指出这暗示"扩散目标函数不足以强制语义表征中的动作利用",需要未来工作设计适合非重建型潜在空间的目标函数。

极简范围的刻意限制(从设计推断)

NanoWM 专注于 diffusion-forcing 中心的 RGB 视频预测,刻意排除了面向决策表征的 JEPA 范式和 3D 结构生成范式。这使框架对某些应用(如需要语义表征的规划任务)能力受限。作者将此定位为"极简主义"的刻意选择,而非技术缺陷。

跨域泛化性能差异大(从实验结果推断)

在视觉和动态复杂度较高的任务域(Granular: FID 40.05;RT-1: FID 35.08)上表现明显弱于简单仿真环境(Wall: FID 2.64;Point Maze: FID 9.66)。统一训练方案虽然有效,但并未消弭简单与复杂域之间的巨大性能鸿沟。