Learning Interactive Real-World Simulators (UniSim)

01 动机 Motivation

训练现实的交互式仿真器是机器人和智能体研究的核心挑战。传统仿真器（MuJoCo、Isaac Gym 等）依赖手工设计的物理引擎，难以捕捉真实世界的视觉多样性与复杂交互；而已有的视频预测方法通常局限于单一场景或特定动作类型。能否用互联网规模的多源数据训练出一个通用的、支持多种动作接口的真实世界仿真器？

"We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling."

UniSim overview — **图1：UniSim 总览。** 通过整合机器人操作数据、人类活动视频、室内导航、全景扫描和互联网图文数据等多源异构数据集， UniSim 学习一个统一的交互式仿真器。该仿真器支持高层语言指令（"open the drawer"）和底层连续控制（末端执行器坐标）等多种动作输入，并能生成逼真的交互式视频帧序列。

5.6B模型参数量

0.34RDG（仿真策略，语言桌面任务）

81%RL 训练后成功率（vs BC baseline 58%）

46.23CIDEr（仿真数据微调后，ActivityNet）

02 方法 Method

UniSim 将真实世界仿真器形式化为一个观测预测模型：给定历史观测帧 h_t-1 和动作 a_t-1，预测下一帧观测 o_t。核心创新在于通过数据编排策略，将多源异构数据统一到同一视频扩散框架下联合训练。

UniSim architecture — **图2：训练与推理框架。** 所有数据集的观测被统一表示为视频帧；动作被统一为条件信号（高层语言用 T5 embedding，底层连续控制离散化后与语言 embedding 拼接）。 Video U-Net 在交织的时序与空间 attention 层中同时处理历史帧与噪声预测帧。推理时以自回归方式滚动生成长时序交互视频。

数据编排策略（Dataset Orchestration）

不同数据集的动作空间差异巨大——机器人数据有连续控制量，人类活动视频仅有文字标签，全景扫描只有相机移动参数。UniSim 对每类数据采用专门的动作表示方式：

仿真渲染 / 机器人操作：提取任务描述作为高层动作；连续控制量离散化后与语言 embedding 拼接
人类活动视频（Ego4D 等）：将活动标签转换为文本动作
全景扫描：构建相机平移/旋转序列作为导航动作
互联网图文数据："treat individual images as single-frame videos and image captions as actions"

视频扩散模型（Video Diffusion Model）

模型为 5.6B 参数 Video U-Net，包含交织的时序与空间 attention 层及卷积层。训练目标为 MSE 去噪损失，采用 classifier-free guidance：

ε_θ = (1 + η) ε_θ(conditional) − η ε_θ(unconditional)

推理阶段通过自回归滚动（autoregressive rollout）生成长时序视频：将已生成帧作为下一步历史条件，反复迭代，支持数十步以上的连续交互仿真。历史帧采用最近 4 帧（而非单帧或远期帧），在消融实验中取得最优 FVD。

03 实验 Experiments

实验从三个维度验证 UniSim 的价值： (1) 作为视觉语言策略（VLM Policy）的训练环境； (2) 作为强化学习（RL）训练环境； (3) 为视频描述（Video Captioning）任务生成合成数据。仿真质量用 FVD（Fréchet Video Distance）和 CLIP 相似度评估；下游任务用任务特定指标评估。

消融：历史帧数对视频生成质量的影响（Ego4D 验证集）

历史条件	FID ↓	FVD ↓	IS ↑	CLIP ↑
单帧（1 frame）	59.47	315.69	3.03	22.55
4帧·远期（4 distant frames）	34.89	237.0	3.43	22.62
4帧·近期（4 recent frames）	34.63	211.3	3.52	22.63

下游任务：Vision-Language Policy（长时序机器人任务）

方法	RDG (moved objects) ↑	RDG (all objects) ↑
VLM-BC（基线）	0.11 ± 0.13	0.07 ± 0.11
Simulator-Hindsight（UniSim 仿真训练）	0.34 ± 0.13	0.34 ± 0.13

RDG（Reduction in Distance to Goal）越高越好；UniSim 仿真训练的策略在 Language Table 任务上显著优于行为克隆基线。

下游任务：RL Policy 训练

方法	指向任务成功率 ↑	抓取任务成功率 ↑
Behavioral Cloning（基线）	12%	58%
Simulator-RL（UniSim 仿真 RL 训练）	71%	81%

通过在 UniSim 仿真环境中进行 RL 训练，策略成功率大幅超越行为克隆基线，且训练所得策略可零样本迁移至真实机器人部署。

下游任务：视频描述合成数据增强（Video Captioning）

数据来源	ActivityNet CIDEr ↑	VATEX CIDEr ↑	SMIT CIDEr ↑
无微调（基线）	15.2	—	—
仿真数据微调（UniSim）	46.23	27.63	40.03
真实数据微调	54.90	—	—

使用 UniSim 生成的合成视频微调视频描述模型，ActivityNet CIDEr 从 15.2 提升至 46.23，并对未见数据集（VATEX、SMIT）展现出更好的跨域泛化能力。

long-horizon simulation — **图3：长时序交互仿真（8步序列）。** UniSim 在接受一系列语言动作指令后，能自回归地生成连贯的长时序交互视频，保持场景一致性并正确响应"open the drawer"、"pick up the object"等动作。

applications — **图4：VLM 策略长时序任务执行。** 在 UniSim 仿真环境中训练的 vision-language 策略，部署到真实机器人后能完成多步操作任务，验证了仿真到真实（sim-to-real）的零样本迁移能力。

消融：数据集组合对仿真质量的影响

数据配置	FVD ↓	CLIP ↑
仅互联网数据	219.62	22.27
无互联网数据	307.80	21.99
全部数据（UniSim）	211.30	22.63

消融：模型规模对仿真质量的影响

模型规模	FVD ↓
500M 参数	277.85
1.6B 参数	224.61
5.6B 参数（UniSim）	211.30

随模型规模增大，FVD 持续下降，但增益逐渐收窄，表明还有提升空间。

04 局限性 Limitations

Note: 以下局限性均由论文作者在 Limitations 章节中明确陈述（stated）。

幻觉（Hallucination）

当给定的动作对当前场景不合理时（例如对桌面机器人发出"wash hands"指令），仿真器会产生幻觉，生成不可能发生的视觉结果（如桌子变成水槽）。原文："we observe hallucinations where the simulated outcomes may be unrealistic."

记忆能力有限（Limited Memory）

仿真器仅以最近几帧作为历史条件，无法捕捉长期物体持久性与场景状态。例如，早期交互中移动过的物体在若干步后可能"复原"，违背物理一致性。原文："cannot capture long-term memory."

域外泛化能力不足（Limited Out-of-Domain Generalization）

对于训练数据中未覆盖的场景（如新型机器人形态），仿真质量显著下降。原文："This is especially true for domains that are not represented in the training data."

仅限视觉仿真（Visual Simulation Only）

UniSim 仅模拟视觉观测变化，无法仿真非视觉效应（力、声音、触觉反馈等）。对于需要力控或触觉感知的任务，该仿真器不适用。原文："Our simulator is not suitable for environments where actions do not cause visual observation change."