arXiv 2501.03575 · NVIDIA · 2025

Cosmos World Foundation Model Platform for Physical AI

为 Physical AI 构建定制化世界模型的开源平台
Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen et al. (77 authors) · NVIDIA

物理 AI(Physical AI)需要"先在数字世界中训练"。Cosmos 是 NVIDIA 发布的世界基础模型(World Foundation Model, WFM)平台, 提供视频数据处理流水线、预训练 WFM(扩散与自回归两大家族)、后训练示例以及高效视频分词器, 帮助开发者为机器人操作、自动驾驶等场景构建定制化世界模型,并以开源方式发布全部模型权重。

arXiv 2025-01 77 authors · NVIDIA 开源 · NVIDIA Open Model License 📄 arXiv:2501.03575 GitHub: cosmos-predict1
world foundation model Physical AI video generation video tokenizer diffusion model autoregressive model 数据飞轮 机器人操作 自动驾驶 开源

01 动机

当前 Physical AI 发展缓慢,核心瓶颈在于:现实世界中带标注的观测—动作交互数据极度稀缺,且采集成本极高。 世界模型(World Model)可以作为物理世界的"数字孪生",让智能体在仿真中安全、廉价地生成海量训练数据, 从而打破数据壁垒、加速 policy 的迭代。

"Physical AI needs to be trained digitally first. It needs a digital twin of itself, the policy model, and a digital twin of the world, the world model."
Cosmos platform overview
图 2:Cosmos 平台全景。 预训练 WFM 是"世界模型通才(generalist)",可通过后训练(post-training)特化至具体 Physical AI 场景。 平台分五大组件:视频数据处理(Video Curator)、视频分词(Tokenizer)、 WFM 预训练、WFM 后训练(下游适配),以及安全护栏(Guardrail)。
20M小时原始训练视频
~100M处理后视频片段
7B / 14B扩散模型参数量
4B – 13B自回归模型参数量

02 方法

Cosmos 平台由四个相互配合的模块组成:① 视频数据飞轮(Video Curator); ② Cosmos Tokenizer(连续/离散两种,支持图像与视频联合训练); ③ 两大预训练 WFM 家族(扩散式 Diffusion WFM 与自回归 Autoregressive WFM); ④ 面向机器人、自动驾驶的后训练 recipe 与安全护栏。

视频数据飞轮(Video Curator)

Video curation pipeline
图 5:Cosmos Video Curator 五步流水线。 依次为:1) split(镜头检测,使用 TransNetV2,BBC 数据集 F1 = 0.967); 2) filtering(运动过滤、视觉质量评估,移除质量最低的 15%,以及文字覆盖/视频类型分类); 3) annotation(VLM 生成字幕,平均 559 字符/片段); 4) dedup(语义聚类去重,移除约 30% 数据); 5) sharding(按分辨率/宽高比/时长分桶)。 系统采用 PyNvideoCodec + NVIDIA 硬件加速,转码吞吐量提升约 6.5×。

Cosmos Tokenizer

Cosmos Tokenizer architecture
图 6:Cosmos Tokenizer 架构。 核心设计:① 时序因果(temporally causal)编解码,支持图像与视频联合训练; ② 2 级 Haar 小波变换进行初始下采样;③ 时空分解卷积 + 因果注意力; ④ Layer Normalization(避免 GroupNorm 的伪影)。 离散变体使用 FSQ 量化,词表大小 64,000。 提供连续(CV)与离散(DV)两套,压缩比可达 4×8×8(时间×高×宽)。

预训练 WFM:扩散式与自回归式

WFM model architecture
图 6(模型侧):两大 WFM 家族。 Diffusion WFM:基于 EDM 去噪得分匹配,包含 7B / 14B Text2World 模型; 通过两阶段流水线(Text2World → Video2World)加入当前观测帧作为条件; Prompt Upsampler(12B Mistral-NeMo 基)弥合 VLM 描述分布差距。 Autoregressive WFM:Llama3-style GPT 架构从头训练, 包含 4B / 12B 纯视频预测模型和 5B / 13B Video2World 变体(T5 + cross-attention 注入文本); 推理阶段配备 7B 扩散解码器,将离散 token 映射回连续表示以提升画质。

后训练:相机控制、机器人、自动驾驶

预训练 WFM 可通过后训练适配三类典型 Physical AI 场景:

03 实验

论文在 TokenBench(作者新建的 benchmark,涵盖 500 段视频:机器人操作 BridgeData V2、自动驾驶 BDD100K、 第一视角 EgoExo-4D 与通用网络视频 Panda-70M)及 MS-COCO 上评测分词器, 并展示扩散与自回归 WFM 的定性生成结果。

Cosmos Tokenizer 定量结果

数据集 / 压缩比类型PSNR (dB) ↑SSIM ↑rFVD ↓
DAVIS · 4×8×8 Continuous (CV) 35.85 0.920 10.05
Discrete (DV) 32.97 0.840 53.44
MS-COCO · 8×8 Continuous (CV) 32.79 0.824 1.874 rFID
Discrete (DV) 31.36 0.714 4.133 rFID

论文还报告,Cosmos Tokenizer 推理速度比此前方法快 2×~12×, 并以此作为分词器效率的核心亮点。

TokenBench reconstruction results
图 10:TokenBench 重建示例。 在机器人操作、自动驾驶、第一视角、通用网络视频四类场景下, Cosmos Tokenizer(连续/离散)的视觉重建质量对比,验证了在多样化 Physical AI 场景中的通用性。
WFM generation evaluation
图 11:预训练 WFM 定性生成结果。 展示了 Cosmos Diffusion WFM(7B / 14B)及 Autoregressive WFM 在 text-to-world 与 video-to-world(Video2World)两种模式下的生成样本, 涵盖室内场景、机器人场景和驾驶场景。

安全护栏(Guardrail)

Cosmos 在输入端部署 Pre-Guard(关键词拦截 + Aegis 护栏模型过滤有害 prompt); 在输出端部署 Post-Guard(视频内容安全过滤 + 人脸模糊)。 两套护栏均经过形式化红队(Red Team)对抗测试。

04 局限性

说明:论文仅在 §5.2.7 中明确列出自回归模型的局限;其余条目为本文根据设计推断(inferred),已标注。
自回归生成的误差累积(stated)

论文原文:"Autoregressive models generate videos sequentially, which can lead to error accumulation over longer generation horizons and may result in degraded quality for extended video sequences." 即自回归式 WFM 在长序列预测时,逐 token 生成导致误差逐帧积累,长视频质量下降。

极高训练计算成本(inferred)

预训练使用 10,000 块 NVIDIA H100 GPU,历时约三个月。 如此规模的算力门槛使大多数研究者和机构无法从头复现预训练过程, 只能在开放权重基础上进行后训练。

物理一致性仍未完全解决(inferred)

论文自述"the world foundation model problem is still far from being solved", 当前生成视频可能出现物理规律违反(穿模、重力异常等), 距离真正可靠的物理世界孪生仍需大量后续研究。

护栏系统尚不完备(inferred)

开源发布附带 Pre-Guard 与 Post-Guard,但作者明确表示安全措施仍在持续演进, 护栏并非一次性的完整解决方案,对抗性 prompt 的覆盖率存在盲区。