Yume: An Interactive World Generation Model

01 动机

现有视频扩散模型在生成交互式、可导航的真实世界场景时面临三大核心挑战：合成数据与真实场景之间的领域鸿沟、依赖绝对相机姿态参数导致的标注难与训练不稳定，以及城市复杂场景中普遍存在的视觉 artifacts（闪烁、纹理异常、几何扭曲）。

"Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, which allows exploration and control using peripheral devices or neural signals."

Yume teaser — 图 1：Yume 概览。用户输入一张图像，通过键盘方向键持续控制相机运动，模型以流式方式生成可探索的动态世界视频——无论是城市街道、室内场景还是无人机航拍视角均可支持。

0.657Instruction Following↑（vs. Wan-2.1: 0.057）

8量化相机动作类别（前/后/左/右/转左/转右/仰/俯）

400hSekai-Real-HQ 训练视频时长

∞理论视频生成时长（自回归）

02 方法

Yume 的框架由四个相互协作的核心组件构成：相机运动量化、Masked Video Diffusion Transformer 架构、无训练采样器设计、以及模型加速。这四部分分别解决了控制稳定性、计算效率、生成质量和推理速度四个维度的问题。

Yume 系统架构 — 图 2：Yume 四大核心组件。左起：(1) 量化相机运动（QCM）将连续轨迹离散化为 8 种文本动作；(2) MVDT 对 30% token 应用 selective masking，通过 side-interpolator 预测遮盖内容；(3) FramePack 启发的长视频记忆压缩方案；(4) TTS-SDE 采样器与 AAM 高频精修模块。

1. Quantized Camera Motion (QCM)

现有方法依赖逐帧绝对相机矩阵（c2w）进行控制，标注成本高且对预训练模型不友好。QCM 将连续相机轨迹量化为 8 种离散动作（forward, backward, left, right, turn-left, turn-right, tilt-up, tilt-down），通过计算相邻帧的相对变换矩阵，选取与之最近的预定义典范动作，并转换为文本条件输入——无需引入额外可学习模块，即可在预训练 I2V 基础模型上实现键盘控制。

2. Masked Video Diffusion Transformers (MVDT)

MVDT 在去噪过程中对 30% 的 token 进行 selective masking，分三阶段处理：Encoder 仅处理可见 token，Side-interpolator 通过可学习 token + self-attention 预测被遮盖内容，Decoder 对插值特征进行精化。该设计将计算集中于可见区域，同时保持时序一致性。配合基于 FramePack 思路的记忆压缩方案（近帧 (1,2,2)、远帧 (1,8,8) 不同压缩比），实现自回归无限视频生成。

3. Training-Free Anti-Artifact Mechanism (AAM)

AAM 是一个无需额外训练的两阶段去噪机制：首先进行标准去噪生成初始结构 z_orig，再利用 Gaussian blur 滤波将低频分量（整体结构）保留自初始生成，而高频分量（细节纹理）由精化步骤重新生成，从而在不引入训练开销的前提下大幅减少城市建筑场景中的视觉伪影。

4. Time Travel Sampling based on SDE (TTS-SDE)

受 DDNM 和 OSV 启发，TTS-SDE 利用后期去噪阶段的信息引导前期步骤，同时注入随机微分方程噪声以增强采样随机性，从而提升文本/动作可控性。消融实验证明，相比标准 ODE 采样，TTS-SDE 将 Instruction Following 从 0.657 提升至 0.743。

5. 模型加速

通过对抗蒸馏将采样步数从 50 步压缩至 14 步，推理时间从 583.1 秒降至 158.8 秒（3.7× 加速），视觉质量指标几乎不变（Imaging Quality 0.739 保持不变，Subject Consistency 仅下降 0.005）。此外还引入基于 Cache 的加速机制协同优化。

03 实验

训练数据：Sekai-Real-HQ（来自 YouTube 行走视频 + 无人机视频，经过镜头检测、亮度过滤、轨迹过滤后精选 400 小时，含 139,019 个标注片段）。评测基准 Yume-Bench 覆盖六项指标：Instruction Following（人工评测）、Subject Consistency、Background Consistency、Motion Smoothness、Aesthetic Quality、Imaging Quality（后五项来自 VBench）。测试分辨率 544 × 960，帧率 16 FPS，96 帧，50 步推理。

Table 2：与 SOTA 方法的对比（质量对比）

模型	Instruction Following ↑	Subject Consistency ↑	Background Consistency ↑	Motion Smoothness ↑	Aesthetic Quality ↑	Imaging Quality ↑
Wan-2.1（文本控制）	0.057	0.859	0.899	0.961	0.494	0.695
MatrixGame（键鼠控制）	0.271	0.911	0.932	0.983	0.435	0.750
Yume（本文）	0.657	0.932	0.941	0.986	0.518	0.739

Yume 的 Instruction Following（0.657）大幅领先两个 baseline，同时在 Subject Consistency、Background Consistency、Motion Smoothness、Aesthetic Quality 上均达到最优或接近最优，仅在 Imaging Quality 上略低于 MatrixGame（0.739 vs. 0.750）。

定性对比结果 — 图 6：Yume 在真实场景与虚构场景中均展现出高质量视觉效果与精准的键盘控制跟随能力，优于 Wan-2.1 和 MatrixGame。

长视频生成验证

在 18 秒的长视频生成测试中（每次自回归生成 2 秒片段，共 9 次外推），前 8 秒运动与测试集一致，后 10 秒切换为持续前进（W 键）。结果显示：subject consistency 仅下降 0.5%，表明 Yume 的自回归生成机制在长时序下具备良好的时序连贯性。

长视频指标动态变化 — 图 5：长视频生成中的指标动态变化。"4 infs" 表示使用 4 次外推（共 8 秒）视频计算，"2 infs" 表示使用 2 次外推（4 秒）视频计算。TTS-SDE 在整个外推过程中保持了稳定的视觉质量。

消融实验

Table 3：不同采样器对比（TTS-SDE 消融）

采样器	Instruction Following ↑	Subject Consistency ↑	Aesthetic Quality ↑
Yume-ODE	0.657	0.932	0.518
Yume-SDE	0.629	0.927	0.516
Yume-TTS-ODE	0.671	0.923	0.521
Yume-TTS-SDE	0.743	0.921	0.507

TTS-SDE 将 Instruction Following 从 0.657（ODE baseline）提升至 0.743，代价是 Subject Consistency 和 Aesthetic Quality 略有下降。这表明 TTS-SDE 通过策略性引入噪声扰动，增强了运动轨迹的精化效果。

Table 4：模型蒸馏消融（50 步 → 14 步）

模型	推理时间（s）↓	Instruction Following ↑	Subject Consistency ↑	Imaging Quality ↑
Baseline（50 步）	583.1	0.657	0.932	0.739
Distil（14 步）	158.8	0.557	0.927	0.739

对抗蒸馏将推理时间压缩约 3.7×（583.1s → 158.8s），视觉质量几乎无损，仅 Instruction Following 下降 0.1（0.657 → 0.557），作者认为这可能因步数减少削弱了文本控制能力。

AAM 效果对比 — 图 7：AAM（Anti-Artifact Mechanism）在城市建筑场景中的效果。左侧为无 AAM 的生成结果（可见异常雪人等伪影），右侧启用 AAM 后结构细节更清晰，逻辑性伪影明显减少。

04 局限性

Note：以下前两点为作者在论文中明确陈述（stated），第三点为结论部分作者自评（stated），均来自原文。

AAM 暂不支持自回归长视频生成

论文明确指出："it does not perform well on autoregressive long video generation due to a lack of V2V foundation models"。AAM 的高频精修机制依赖单段视频的去噪结构，在多段自回归拼接场景下效果退化，作者计划在下一版本中解决。

V2V 生成对同质运动的过度依赖

当输入的条件视频包含长时间单一运动（如持续直行）时，Video-to-Video 生成模式会"过度依赖运动特征"，导致生成结果缺乏多样性。论文通过引入 30% 静态图像增强进行一定程度的缓解。

仍面临视觉质量、推理效率与控制精度的挑战

作者在结论中坦承："Yume is a long-term project that has established a solid foundation, yet still faces numerous challenges to address, such as the visual quality, runtime efficiency, and control accuracy. Moreover, many functions need to be achieved, such as interaction with objects."本次发布为 preview 版本，将以月度迭代方式持续更新。